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常言 道 “ 百 闻 不 如 一 见 ”， 人 类 感官 接受 的 各 种 信息 约 有 80% 来 自视 觉 。 视 频 和 图 像 
等 可 视 化 信息 是 对 客观 事物 形象 、 生 动 的 描述 ， 是 直观 而 具体 的 信息 表达 形式 ， 是 人 类 社 
会 最 重要 的 信息 载体 。 随 着 光学 成 像 、 数 字 视 频 、 计 算 机 、 信 和 号 处 理 等 技术 的 快速 发 展 ， 
以 及 人 类 社会 对 信息 获取 、 安 全 保卫 、 智 能 服务 等 应 用 的 迫切 需求 ， 视 频 与 图 像 日 益 受到 
人 们 的 青睐 。 海 量 视频 处 理 在 视频 图 像 与 内 容 描述 之 间 建 立 映 射 关 系 ， 通 过 视频 图像 分 析 
来 理解 场景 内 容 ， 如 人 脸 识别 、 行 为 识别 、 车 牌 搜索 、 车 标 搜索 、 视 频 摘要 等 。 

本 书 是 作者 十 多 年 研究 海量 视频 处 理 的 心血 结晶 ， 可 作为 信息 、 计 算 机 、 自 动 化 、 电 
子 与 通信 等 学 科 专 业 高 年 级 本 科 生 和 研究 生 的 实践 教材 ， 也 可 以 作为 从 事 海量 视频 处 理 领 
域 技术 人 员 的 参考 设计 资料 。 全 书 分 为 10 章 ， 首 先 详尽 地 介绍 海量 视频 的 模型 、 管 理 、 分 
析 的 基本 理论 ， 然后 深入 地 图 述 大 规模 人 脸 搜 索 、 高 清 卡 口 车 辆 信息 搜索 、 上 暴 力行 为 检测 、 
可 疑 行 为 检测 、 海 量 视频 摘要 等 系统 的 实施 方案 和 实验 仿真 ， 并 提供 配套 的 源 代码 和 视频 
库 ， 最 后 以 某 个 市 级 公安 局 应 用 为 参考 ， 深 入 浅 出 地 描述 海量 视频 管控 平台 。 
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2008 年 9 月 ，Nature 推出 封面 专栏 “大 数据 (Big Data)”， 阐 述 大 数据 在 数学 /物理 
/生物 /信息 等 基础 学 科 、 工 程 技术 、 社 会 经 济 领 域 中 扮演 着 非常 重要 的 角色 。 随 后 Science、 
《华尔街 日 报 》《 求 是 》 等 权威 媒体 大 篇 幅 介 绍 大 数据 ， 大 数据 在 Google、 百 度 、 必 应 
等 成 为 搜索 热点 。 大 数据 成 为 当代 的 标志 符号 ,海量 视频 是 大 数据 的 重要 形态 ， 即 视觉 
大 数据 。 


1.1 视觉 大 数据 


如 图 1.1 所 示 ， 符 合 4 个 V 的 数据 为 “大 数据 ”海量 视频 就 是 视觉 大 数据 。 


olume ariety eracity 


图 1.1 大 数据 的 4 个 V 
1. Volume 


Volume (大量 ) 指数 据 总 量 巨大 。 


2 视觉 大 数据 基础 与 应 用 


以 视频 监视 系统 产生 的 视频 数据 为 例 , 近年 来 随 着 各 个 城市 联网 视频 监控 系统 以 及 
高 清 摄像 头 的 普及 , 视频 数据 快速 增长 。 以 某 个 部 署 10 000 个 标清 摄像 机 的 中 等 城市 为 
例 ， 每 个 摄像 机 每 秒 采集 到 的 视频 数据 经 压缩 编码 后 的 数据 量 约 为 720 (画面 宽度 ) X 
576 (画面 高 度 ) X2B 使 用 4:2:2 采样 ) X25 ( 帧 率 ) X 0.01 (H.264 编码 平均 压缩 比 ) 
=207360B 守 0.2X 105 B (0.2MB)， 每 天 产生 的 视频 数据 量 约 为 0.2X 105 BX60 ( 秒 ) X 
60 (分 ) X24 (小 时 ) X10000 ( 台 ) =172.8X102 B (172.8TB)， 每 个 月 产生 的 视频 数 
据 量 约 为 : 172.8X102BX30 (天 ) =5.184X10'5B (5.184PB)。 

在 实际 系统 中 ， 为 了 降低 存储 压力 ， 通 常 仅 存 储 关键 事件 (如 人 、 车 、 物 ) 的 画面 
和 描述 信息 ， 保 守 估 计 平 均 每 个 摄像 机 每 10 秒 发 生 1 个 事件 ( 即 每 秒 0.1 个 事件 )， 则 
每 天 产生 的 事件 记录 约 为 0.1 (条 / 秒 ) X60 ( 秒 ) X60 (分 ) X24 (小 时 ) X10000 (人 台 ) 
=86.4X10 条 ， 每 年 产生 的 事件 记录 约 为 86.4X105 条 X365 (天 ) 之 31.5X10 条 ; 假设 
记录 需 保存 3 年 ， 每 条 记录 平均 需要 占用 0.4MB (2 秒 视 频 ) 的 存储 空间 ， 则 所 需 的 总 
存储 空间 约 为 31.5X10 条 X3 (年 ) X0.4MB 守 37.8X10'B (37.8PB)。 

视频 分 享 网 站 产生 的 视频 数据 量 同样 巨大 ， 据 统计 ，2012 年 YouTube 网 站 上 每 分 
钟 由 用 户 上 传 的 视频 数据 平均 超过 40 小 时 ， 按 标清 视频 数据 量 计算 ， 每 年 产生 视频 数 
据 量 约 为 0.2X105( 字 节 / 秒 ) X60 ( 秒 ) X60 (分 ) X40 (小 时 ) X60 (分 ) X24 (小 
时 ) X365 (天 ) s15.14X1015B (15.14PB)。 近 几 年 随 着 智能 手机 等 具备 视频 采集 功能 
设备 的 普及 ， 视 频 上 传 量 更 是 呈现 爆发 式 增长 。 


2. Variety 


Variety (多 样 ) 指 数据 种 类 很 多 。 
如 表 1.1 所 示 ， 海 量 视频 数据 的 来 源 多 种 多 样 、 内 容 包 罗 万 象 。 


表 1.1 海量 视频 数据 分 类 


分 类 依据 具体 类 别 

信号 形式 模拟 视频 、 数 字 视 频 

分 辩 率 CIF、4CIF、D1、720P、1080IP、2K、4K 等 
色彩 真 彩色 、 灰 度 、 伪 彩色 〈 如 热 像 仪 成 像 ) 等 

来 源 监控 系统 、 影 视 作 品 、 个 人 拍摄 等 

场景 室内 、 室 外 ， 白 天 、 夜 晚 

环境 晴天 、 阴 雨 、 大 雾 等 

摄像 机 姿态 固定 式 、 运 动 式 

编码 格式 MPEG-1/2/4、H.261/263/264/265、AVS、SVAC 等 
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3. Veracity 


Veracity〈 精 确 ) 指数 据 的 数据 总 量 大 、 价 值 密度 低 。 
该 特点 在 海量 视频 数据 上 尤为 突出 。 以 监视 视频 为 例 ， 在 1GB 的 监视 视频 中 ， 有 
用 的 数据 总 量 可 能 仅仅 只 有 10MB。 


4. Velocity 


Velocity (速率 ) 指数 据 的 流通 速度 快 、 实 时 性 强 。 
监控 视频 数据 放映 的 是 监控 场景 的 实时 情况 ， 具有 实时 性 ; 在 对 监视 视频 进行 处 理 
时 ， 处 理 速度 越 快 ， 实 时 性 越 高 ， 数 据 所 体现 出 的 价值 就 越 大。 


1.2 关键 技术 


海量 视频 数据 是 由 传统 的 分 立 多 源 视频 数据 形成 的 聚合 体 , 不仅 包含 原始 视频 数据 
的 全 部 数据 量 ， 而 且 通过 分 析 多 源 视 频 的 内 在 联系 ， 还 可 以 挖掘 出 单个 视频 数据 无 法 提 
供 的 信息 ， 实 现 1+1>2 的 超越 。 

下 面 介绍 与 海量 视频 相关 的 关键 技术 。 


1. 存储 与 管理 


海量 视频 数据 集 记 录 数 众多 ， 容 量 巨大 ， 导 致 在 采集 、 传 输 、 存 储 、 处 理 、 检 索 、 
共享 、 分 析 、 显 示 数 据 集 时 产生 巨大 障碍 ， 无 法 采用 传统 的 基于 单机 或 小 规模 服务 器 集 
群 的 数据 库 、 文 件 存 储 、 分 布 式 处 理 技 术 ， 必 须 采 用 基于 大 规模 计算 集群 或 数据 中 心 的 
可 灵活 扩展 、 可 容错 、 大 规模 分 布 式 并 行 处 理 技 术 。“ 云 计算 ”( 大 规模 集群 分 布 式 并 行 
计算 技术 ) 被 认为 是 当前 的 最 佳 解 决 方案 ， 已 经 成 为 智慧 城市 物 联网 应 用 的 组 成 部 分 。 
2. 分 析 与 识别 


传统 的 视频 监控 系统 依赖 人 工 对 监控 视频 进行 实时 查看 和 后 期 搜索 。 由 于 人 眼 并 非 
可 靠 的 观察 者 ， 人 工 值守 容易 忽视 画面 监控 造成 失误 ， 同 时 人 工 搜索 的 效率 异常 低下 
不 能 满足 海量 视频 的 应 用 需求 。 

视频 分 析 与 识别 技术 是 解决 该 问题 的 关键 。 璧 如 : 在 前 端 高 清 网 络 摄像 机 中 植 入 智 
能 功能 ， 通 过 视频 分 析 ， 对 高 清 监 控 场景 中 的 人 或 物 进行 分 析 和 识别 ， 对 异常 现象 产生 
提示 或 报警 ;通过 网 络 将 前 端 视频 数据 汇总 到 中 心服 务 器 ,借助 高 性 能 硬件 进行 实时 分 
析 和 识别 ， 使 用 分 布 式 计 算 和 云 计算 技术 ， 挖 掘 历史 记录 视频 中 的 有 用 信息 。 
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3. 摘要 与 搜索 


海量 视频 数据 的 价值 密度 低 ， 完 整 存储 时 会 浪费 巨大 的 存储 空间 。 利 用 视频 图 像 处 
理 〈 如 视频 浓缩 、 摘 要 、 增 强 等 )、 模 式 识 别 、 海 量 数据 分 类 存储 以 及 视频 搜索 等 技术 ， 
对 海量 的 存储 录像 等 原始 信息 进行 分 析 和 挖掘 ， 对 于 目标 的 特征 、 行 为 、 联 接 关 系 等 信 
息 内 容 , 形成 各 种 分 类 的 特征 信息 库 、 元 数据 和 索引 等 , 提供 统一 接口 供 外 部 应 用 搜索 ， 
通过 有 限 的 线索 ， 达 到 快速 关联 和 可 靠 定位 的 功能 。 


1.3 ”应 用 领域 


下 面 介绍 海量 视频 的 典型 应 用 。 

1. 情报 侦察 领域 

在 公开 的 媒体 视频 数据 中 有 时 会 包含 某 个 重要 目标 的 局 部 特征 片段 , 情报 机 构 通 过 
分 析 海 量 视频 数据 ， 将 包含 类 似 目 标的 视频 数据 进行 提取 和 汇总 ， 有 可 能 挖掘 出 有 价值 
的 目标 信息 。 

2. 公共 安全 领域 

通过 分 析 遍 布 大 街 小 埠 、 车 站 码头 、 商 场 酒店 等 场所 的 摄像 机 数据 ， 借 助 视频 分 析 
技术 ， 安 全 部 门 可 以 及 时 发 现 异 常情 况 ， 并 在 第 一 时 间 做 出 响应 ， 搜 寻 事 发 现场 的 可 疑 
目标 及 其 去 向 ;借助 人 脸 搜 索 技术 ， 通 过 和 公安 系统 嫌疑 人 信息 数据 库 对 接 ， 可 以 及 时 
发 现 网 上 追 逃 的 嫌疑 人 员 等 。 

3. 智能 交通 领域 

通过 分 析 管 辖 范围 内 所 有 道路 摄像 机 的 监视 数据 ， 实 时 分 析 道 路 交通 流量 ， 交 通 主 
管 部 门 可 以 综合 分 析 和 统计 全 城 的 交通 状况 ; 通过 建立 统一 的 车 辆 信息 数据 库 ， 借 助 车 
牌 识别 、 车 型 识别 、 车 标识 别 技术 ， 快 速 发 现 套 牌 车 和 假 牌 车 ， 快 速 搜索 并 定位 特定 车 
辆 的 轨迹 和 位 置 。 

4. 休闲 娱乐 领域 


网 络 视 频 点 播 已 经 成 为 广播 电视 传播 的 重要 方式 ， 通 过 建立 分 布 式 云 存储 架构 ， 用 
户 在 任何 时 间 、 任 何 地 点 ,只 要 通过 联网 终端 ,就 可 以 随时 点 播 和 观看 喜欢 的 视频 节目 ， 
以 便 更 好 地 安排 工作 和 休闲 时 间 。 
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5. 个 性 广告 领域 


网 络 广告 已 经 成 为 广告 业 的 重要 分 支 ， 从 业者 通过 收集 、 分 析 用 户 与 广告 间 的 海量 
互动 视频 ， 可 以 分 析出 什么 内 容 的 广告 更 能 吸引 客户 、 什 么 长 度 的 广告 不 会 引起 用 户 的 
反感 、 什 么 时 段 适 合 哪些 广告 的 投放 、 什 么 网 站 的 用 户 更 倾向 于 哪些 类 型 的 广告 等 。 


1.4 挑战 与 发 展 


1. 面临 的 挑战 


海量 视频 数据 具有 庞大 的 数据 量 和 信息 量 ， 相 关 和 领域 的 深入 研究 和 有 效应 用 面临 巨大 
挑战 。 

(1) 高 效 存 储 

海量 视频 数据 对 传输 、 存 储 和 计算 的 带宽 要 求 巨大 ， 由 于 海量 视频 数据 量 的 急速 扩 
大 ， 大 规模 计算 需求 越 来 越 多 ， 处 理 技术 尚未 取得 重大 突破 ， 堆 砌 高 配 硬 件 成 为 唯一 选 
择 ， 导 致 硬件 投资 增长 迅 独 。 如 何 有 效 利用 已 有 硬件 、 和 避免 重复 建设 、 改 进 硬件 性 能 、 
降低 系统 成 本 是 当前 面临 的 重大 问题 。 

摄像 机 每 天 24 小 时 不 停 地 工作 ， 如 实 记 录 发 生 的 一 切 ， 而 对 于 用 户 来 说 可 能 大 部 
分 信息 无 效 。 为 了 提高 海量 视频 数据 的 信息 密度 ， 孜 需 视频 摘要 与 搜索 。 

(2) 快速 分 析 

原始 视频 数据 是 非 文本 、 非 结构 化 的 数据 ， 对 视频 内 容 进行 建 模 和 数学 表述 决定 提 
取 性 能 。 如 何 根据 实际 需求 选用 合适 模型 、 如 何 优化 已 有 模型 以 满足 特定 需求 、 如 何 衡 
量 模型 的 表述 性 能 是 应 用 要 面临 的 复杂 问题 。 

在 视频 监控 业务 中 ， 错 看 、 漏 看 、 来 不 及 看 等 是 常见 困扰 。 海 量 视频 数据 的 回溯 给 
安全 人 员 带 来 生理 与 心理 的 双重 挑战 ， 经 常 有 看 到 吐 、 看 到 学 等 无 奈 情 况 

视频 分 析 的 效率 决定 价值 ， 更 低 的 延迟 、 更 准确 的 分 析 是 智慧 城市 的 普遍 需求 。 现 
有 技术 对 TB 级 的 数据 进行 分 析 和 检索 需要 花费 数 小 时 的 计算 ， 不 能 胜任 时 效 性 需求 。 
要 深入 研究 适用 于 海量 视频 数据 实时 分 析 与 识别 的 先进 算法 和 计算 模型 ， 实 现 海量 视频 
数据 的 模糊 查询 、 快 速 检 索 和 精准 定位 。 


(3) 优化 应 用 

在 视频 监控 业务 中 ， 看 只 是 信息 采集 方式 之 一 ， 用 才 是 业务 拓展 的 根本 。 视 频 监 控 
业务 的 效率 问题 成 为 阻碍 产业 发 展 的 关键 瓶颈 。 

随 着 摄像 机 覆盖 广度 、 密 度 的 增 大 ， 视 频数 据 量 呈 指数 级 上 升 ， 而 视频 监控 数据 的 
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使 用 效率 却 在 下 降 ， 大 量 的 视频 数据 仍然 是 独立 的 、 零 散 的 ， 散 布 在 各 个 行业 与 单位 独 
立 的 系统 中 ， 没 有 联网 共享 。 

在 视频 监控 业务 网 络 化 之 后 ， 网 络 设备 越 来 越 多 ， 但 是 设备 利用 率 相 对 较 低 ， 很 多 
计算 资源 处 于 闲置 状态 ， 没 有 实现 资源 的 最 大 化 利用 ， 运 算 效 率 很 低 。 

2. 发 展 方向 

(1) 分 布 式 存储 

如 果 类 比 水 库 蓄 水 方式 ， 典 型 的 网 络 视频 监控 数据 存储 模型 是 一 个 由 小 溪 汇 聚 河 
流 、 再 汇聚 到 水 库 的 蓄 水 方式 。 小 溪 数 量 增 多 、 水 量 增 大 是 水 库 荤 水 量 的 保证 ， 然 而 传 
统 方式 下 营 水 量 增 大 将 提高 水 库 建 造成 本 和 对 荤 水 安全 性 的 要 求 。 

采用 分 布 式 营 水 模式 ， 在 河流 中 游 建立 多 个 中 间 蓄 水 池 ， 不 仅 可 以 减少 主 水 库 蘑 水 
压力 和 成 本 ， 化 整 为 零 ， 还 可 以 提高 就 近 用 水 效率 。 

在 大 数据 技术 的 支撑 下 ,网络 视频 监控 数据 的 存储 模型 可 转向 分 布 式 的 数据 存储 体 
系 ， 提 供 高 效 、 安 全 、 廉 价 的 存储 方式 。 

(2) 并 行 计算 

并 行 计算 是 指 采用 多 台 计 算 机 的 计算 资源 ， 并 行 处 理 分 布 到 各 个 节点 的 海量 数据 ， 
提高 数据 处 理 的 整体 效率 ， 这 是 目前 提高 大 规模 数据 处 理 效率 的 有 效 手 段 。 

并 行 计算 主要 分 为 3 类 ， 即 MPI、MapReduce 和 Dryad。 

口 MPI 

MPI (Message Passing Interface， 消 息 传 递 接口 ) 是 目前 国际 上 并 行 计 算 领 域 最 流 
行 的 API 规范 , 由 多 家 单位 共同 设计 完成 ， 易 用 性 好 、 可 移植 性 强 、 异 步 通信 功能 完备 ， 
是 计算 机 集群 、 多 处 理 器 计算 机 、 超 级 计算 机 进行 高 性 能 计算 的 常用 技术 。 

在 基于 MPI 的 实现 中 ， 对 于 一 个 计算 任务 ， 一 般 需 要 划分 为 一 组 独立 的 计算 部 分 ， 
在 初始 化 时 对 应 生成 一 组 进程 ， 每 一 个 进程 完成 一 个 计算 部 分 ， 在 不 同 节点 上 运行 ， 进 
程 之 间 通 过 集合 通信 或 点 对 点 通信 方式 进行 数据 交互 ， 各 个 节点 的 计算 结果 最 终 汇总 到 
主 计算 节点 ， 完 成 同一 个 计算 任务 。 

口 MapReduce 

MapReduce 是 进行 大 规模 数据 处 理 的 并 行 计算 模型 ， 由 Google 在 2004 年 提出 ， 应 
用 于 大 规模 集群 。 

Map〔 了 上 映射) 和 Reduce (化 简 ) 是 计算 的 两 个 阶段 ， 前 者 通过 调用 Map 函数 实现 
一 组 键 值 到 一 组 新 键 值 的 映射 计算 ， 后 者 采用 Reduce 函数 对 所 有 了 映射 计算 结果 进行 化 
简 。 
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与 MPI 相 比 , MapReduce 在 数据 存储 节点 就 地 或 就 近 完 成 Map 或 Reduce 计算 , 减 
少 了 数据 的 网 络 传输 压力 。 

口 Dryad 

Dryad 是 微软 在 2007 年 提出 的 数据 并 行 计算 模型 ， 与 MapReduce 相同 ，Dryad 也 
是 通过 在 数据 存储 节点 就 地 或 就 近 完 成 相关 计算 的 方式 ， 减 少数 据 的 网 络 传输 压力 。 

Dryad 采用 DAG (有 向 无 环 图 ) 表示 单个 任务 ， 按 照 DAG 的 方向 依赖 进行 计算 ， 
计算 类 型 相对 于 MapReduce 更 加 丰富 ， 计 算 结果 可 以 通过 TCP Pipes、Shared-memory 
FIFOs 方式 进行 传输 ， 避 免 见 余 磁盘 IO 操作 ， 传 输 手段 更 加 高 效 。 
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海量 视频 模型 


海量 视频 模型 是 海量 视频 处 理 与 分 析 的 基础 ， 本 章 针对 海量 视频 模型 ， 重 点 介绍 其 
基本 理论 和 使 用 方法 ， 包 括 HSV 颜色 模型 、 肤 色 模型 、 形 状 模型 、 人 体 可 变形 模型 、 
混合 高 斯 模型 、 概 率 图 模型 、 感 兴趣 区 域 模型 、 视 觉 显著 性 模型 、 多 分 辩 率 模型 、 视 觉 
词 袋 模型 、 视 频 语 义 模型 等 。 


2.1 HSV 颜色 模型 


颜色 模型 是 采用 数学 方法 表示 和 处 理 视频 图 像 信息 的 第 一 步 ， 将 颜色 定义 为 特定 空 
间 的 坐标 值 ， 不 同 的 颜色 空间 定义 可 以 得 到 不 同 的 颜色 模型 ， 不 同行 业 常用 的 颜色 模型 
有 HSV、RGB、HSI、CHL、LAB、CMY 等 ， 海 量 视 频 处 理 常 用 HSV 颜色 模型 。 

1. HSV 颜色 模型 的 定义 


如 图 2.1 所 示 ， 在 HSV 模型 中 ， 每 种 颜色 由 色调 (Hue，H)、 饱 和 度 〈Saturation， 
S) 和 明暗 度 (Value，V) 表示 ， 对 应 于 圆柱 坐标 系 中 的 一 个 圆锥 形 子 集 。 

色调 H 由 绕 V 轴 的 旋转 角 给 定 ， 红色 对 应 0”， 绿 色 对 应 120”， 蓝 色 对 应 240”; 
每 种 颜色 和 它 的 补 色相 差 180”。 

饱和 度 S 取 值 从 0 到 1， 等 于 颜色 点 到 V 轴 的 距离 。 

明暗 度 V 取 值 从 0 到 1， 对 应 于 颜色 点 在 V 轴 的 投影 位 置 。 
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圆锥 顶 面 的 半径 为 !1， 顶 面 对 应 V=1。 顶 面 圆周 上 的 颜色 V=1、S=1， 
是 纯色 。 在 圆锥 的 顶点 处 ， 即 原点 ，V=0， 为 黑色 。 在 


锥 的 顶 面 中 心 处 V=1、S=0,，H 


5 


无 定义 ， 为 白色 。 从 项 面 中 心 点 到 原点 ， 代 表 不 同等 级 的 灰色 ，S=0，H 无 定义 。 


图 2.1 HSV 颜色 空间 


2. HSV 颜色 模型 的 计算 


设 某 颜色 的 RGB 空间 坐标 为 (7,g,5)， 对 应 HSV 空间 坐标 为 (hs,v) 。 其 中 ，r、g、 
b、s、v 的 取 值 范围 为 [0, 1]，4 的 取 值 范围 为 [0, 360)。 


口 RGB 转换 为 HSV 


max = max (7,g,b) 


min= min(r, g,b) 


则 有 : 


max = min 


max=rand g>b 


max=randg<b 
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| max=0 
3 三 1max 一 min min 
所 其 他 
max max 
v= max 


在 MATLAB 中 ， 有 对 应 的 转换 函数 HSV = rgb2hsv(RGB) 。 


口 HSV 转换 为 RGB 


qg=vx(1-fxs) 


站 vx(1-(1-/)xs) 


(wwR 动 :大 EC 
(q,v,p), h =1 
(psv,1),h =2 
(p,q,v),h =3 
(1,psv), hh 二 4 
(%p,9),h=5 

在 MATLAB 中 ， 有 对 应 的 转换 函数 RGB = hsv2rgb(HSV) 。 
3. HSV 颜色 模型 的 应 用 


如 图 2.2 所 示 ， 色调 信号 理 从 0 到 360" 变 化 ,其 中 S=1、V=1， 对 应 颜色 依次 从 红 
色 、 黄 色 、 绿 色 到 蓝 色 逐渐 变化 。 


图 2.2 色调 信号 变化 效果 图 
人 的 肤色 主要 集中 在 黄色 和 红色 区 域 ,采用 色调 信号 , HSV 模型 可 以 用 于 人 脸 检 测 ， 


(7,g,b)= 
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实现 人 脸 分 割 ， 如 图 2.3 所 示 。 
— pap 


图 2.3 基于 HSYV 模型 的 人 脸 检 测 
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图 2.3 (a)、(b)、(c) 对 应 在 不 同 角度 和 光照 条 件 下 的 人 脸 图 像 ， 各 图 中 的 白 框 表 
示 提 取 分 析 的 色 块 ， 分 别 显 示 为 图 2.3(d)、(e)、(f)。 图 2.3 (g) 是 各 个 色 块 对 应 H 
分 量 的 直方 图 。 在 不 同 条 件 下 ， 人 脸 区 域 的 色 块 的 理 分 量 直 方 图 分 布 具 有 显著 特性 : 在 
一 定 范围 内 集中 分 布 。 利 用 该 特性 ， 可 以 设计 算法 ， 高 效 实现 人 脸 的 检测 与 分 割 。 


2.2 ”肤色 模型 


将 皮肤 颜色 映射 到 YCbCr 空间 ， 在 CbCr 二 维 平面 中 肤色 近似 成 一 个 椭圆 分 布 。 
1. YCbCr 空间 的 定义 


在 YCbCr 颜色 空间 中 ，Y 代表 亮度 ， 为 RGB 信号 的 加 权 平 均值 。 色 度 采 用 Cb 和 
Cr 表示 ，Cb 反映 RGB 信号 中 蓝 色 部 分 与 亮度 值 之 间 的 差异 ，Cr 反映 RGB 信号 中 红色 
部 分 与 亮度 值 之 间 的 差异 。 

YCbCr 的 具体 实现 有 多 种 形式 , 可 以 根据 具体 情况 优化 选择 。 下 式 可 以 实现 YCbCr 
与 RGB 空间 的 转换 ， 当 RGB 各 分 量 在 [0, 255] 时 ， 转 换 的 Y 属于 [0.0, 255.0]，Cb、Cr 
属于 [-128.0, 127.0] 。 


0.299 -0.168935 0.499813 
[Y Cb Cr]=[R G B]I0.587 -0.331665 -0.418531 
0.114 0.50059 -0.081282 


2. YCbCr 空间 的 颜色 分 布 
图 2.4 给 出 了 Y=0、Y=128、Y=255 时 ，CbCr 平面 的 颜色 分 布 图 。 


(a) Y=0 (b) Y=128 (c) Y=255 
图 2.4 ”CbCr 平 面 的 颜色 分 布 图 
对 于 不 同 的 Y 值 , CbCr 平 面 的 颜色 分 布 具 有 相对 固定 的 特征 ,各 图 左上 角 对 应 (Cb 
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=-128, Cr= -128)， 表 现 为 不 同 程度 的 绿色 ; 各 图 右上 角 对 应 (Cb = 127, Cr= -128)， 表 
现 为 不 同 程度 的 蓝 色 ; 各 图 左下 角 对 应 (Cb= -128, Cr = 127)， 随 着 亮度 的 变化 从 红色 、 
橙色 变化 到 黄色 。 

3. 肤色 模型 的 应 用 

肤色 模型 的 应 用 包括 两 个 步骤 ， 即 肤色 模型 的 构建 和 使 用 。 

口 肤色 模型 的 构建 

设 有 如 图 2.5(a) 所 示 的 样本 图 像 ， 包 含 人 脸 及 手臂 等 肤色 像素 。 为 了 构建 肤色 模 
型 ， 从 图 像 中 采样 皮肤 像素 点 ， 并 将 其 从 RGB 空间 投影 到 YCbCr 空间 。 各 采样 点 的 位 


置 在 图 2.5 (a) 中 用 红色 的 交叉 表示 ， 在 CbCr 平面 中 的 分 布 如 图 2.5 (b) 所 示 。 
80r 
Wt —1— 一 一 一 
60| 六 1 | 一 | 
大 一 -| -一 | 

Cr - 区 | | 
+ ++ | | eu RSS) \ 
2 EN 
20 | me 年 下 a 
| | | 
| | | + 
%5 30 25 -20 15 -10 S 0 S 


(a) 样本 图 像 (b) CbCr 平面 内 的 样本 分 布 
图 2.5 ”肤色 模型 的 构建 


在 CbCr 平面 内 ， 肤 色 样 本 点 的 分 布 近 似 于 高 斯 椭圆 。 利 用 样本 点 信息 ， 可 以 求 取 
含 大 部 分 样本 点 的 椭圆 曲线 ， 可 以 用 椭圆 参数 模型 描述 。 


x| | cosO sing | Cb-ch, 
了 | -sing cosb (7 一 0 
| 
a Pp 
其 中 ， 9 是 长 轴 对 应 的 旋转 角度 ; a、b 分 别 对 应 长 、 短 轴 半 径 ; (cbo，cro2 对 应 样 
本 的 平均 值 。 
口 肤色 模型 的 使 用 
根据 肤色 模型 ， 可 以 得 到 如 下 的 判断 准则 : 
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对 任 一 像素 点 ， 如 果 其 在 CbCr 平面 内 的 投影 在 椭圆 曲线 内 ， 则 判断 为 皮肤 点 ， 反 


之 ， 则 不 是 。 根 据 这 个 判断 准则 ， 可 以 得 到 图 2.6 所 示 的 肤色 判断 结果 图 。 


图 2.6 肤色 判断 结果 


通过 建立 肤色 模型 ， 可 以 判断 像素 点 是 否 属于 皮肤 。 从 图 2.6 所 示 的 肤色 判断 结果 


可 以 看 出 : 
口 肤色 判断 基本 准确 ， 可 以 将 人 脸 和 手臂 部 分 有 效 地 分 割 出 来 。 
口 存在 一 定 误差 ， 女 士 的 头发 由 于 与 肤色 相似 ， 被 错 分 为 皮肤 。 
口 对 光照 有 一 定 鲁 棒 性 ， 可 有 效 识别 脸 上 的 阴影 区 域 。 
口 对 光照 的 鲁 棒 性 有 限 ， 左 一 人 物 的 左 眼 亮度 过 暗 ， 无 法 有 效 识 别 。 


在 实际 使 用 中 , 该 肤色 模型 可 以 作为 一 个 预 处 理 环节 , 与 其 他 信息 融合 , 实现 高 效 、 


精确 的 皮肤 检测 与 分 割 。 


2.3 ”形状 模型 


基于 主动 形状 模型 (Active Shape Models，ASM) 的 目标 检测 方法 广泛 应 
视频 处 理 中 ， 利 用 训练 所 建 模型 与 新 数据 的 匹配 ， 实 现 目标 的 检测 与 定位 。 


1. 主动 形状 模型 的 建 模 


于 海量 


为 了 建立 目标 形状 的 统计 模型 , 需要 一 些 典 型 样本 图 像 。 在 包含 目标 的 样本 图 像 中 ， 
人 工 标记 目标 的 形状 信息 。 将 标记 的 数据 作为 训练 的 样本 ， 根 据 其 统计 特性 建立 模型 。 


ASM 生成 过 程 如 下 。 
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口 选择 合适 的 标记 点 
标记 点 是 ASM 的 基础 ， 合 适 的 标记 点 便于 检测 和 定位 。 如 图 2.7 所 示 ， 一 般 选 择 
目标 边缘 的 角 点 、 交 叉 点 等 特征 点 。 为 了 避免 标记 点 过 于 稀疏 ， 往 往 在 这 些 点 之 间 沿 着 
目标 边界 ， 等 距 地 选取 中 间 插 值 点 作为 辅助 。 
特征 点 、 插 值 点 及 其 邻接 关系 共同 表征 目标 的 形状 。 
边缘 的 角 点 


SS 
一 一 等 距 的 中 间 插 值 点 
0 


目标 的 边缘 


边缘 的 交叉 点 
图 2.7 合适 的 标记 点 

口 生成 形状 特征 向 量 

记录 选取 的 标记 点 及 其 连接 顺序 ， 得 到 有 序 点 列 : 

{ (四 

将 这 些 点 的 坐标 分 组 ， 依 次 串联 起 来 ， 得 到 表征 目标 形状 的 特征 向 量 : 
(me 

为 了 使 该 模型 与 其 在 图 像 中 的 位 置 、 角 度 和 尺度 无 关 ， 需 要 进行 归 一 化 操作 ， 将 不 


同样 本 的 图 像 坐标 变换 到 统一 的 坐标 系 。 
口 建立 形状 的 统计 模型 
每 个 训练 样本 对 应 2n 维特 征 空 间 中 的 一 个 点 , 而 目标 在 这 个 2n 维特 征 空间 内 的 分 


布 就 是 其 形状 模型 ， 可 以 根据 训练 样本 估计 其 特征 分 布 。 
为 了 简化 分 析 ， 使 用 主 成 分 分 析 (PCA) 方法 将 特征 空间 降 维 。 每 个 训练 样本 亏 ， 
通过 PCA 降 维 ， 可 以 近似 为 : 
XX+Pb 
其 中 ， 蒜 对 应 平均 模型 ，P=(pi,Pp,,…,P,) 包 含 样本 协 方 差 矩 阵 中 特征 值 最 大 的 t 


个 特征 向 量 ，b 是 一 个 t 维 向 量 : 
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b=P"(X-X) 


4 可 以 看 作 是 形状 模型 的 形变 参数 ， 通 过 改变 p， 可 以 得 到 形状 模型 不 同 的 变形 实 
例 。 假 设 第 i 维 参数 b 在 样本 集 下 对 应 的 特征 值 为 ， 将 b 的 变化 范围 限制 在 +3V 矿 ， 
可 以 将 模型 的 形变 控制 在 与 训练 样本 相似 的 范围 内 。 

2. 主动 形状 模型 的 匹配 
已 知 目标 ASM 模型 及 测试 点 列 , 需要 利用 匹配 算法 求 取 测试 点 列 对 应 的 形变 参数 ， 
并 依 此 识别 和 定位 目标 。 由 于 ASM 模型 建立 在 归 一 化 的 坐标 系 下 ， 图 像 坐标 系 下 的 测 
试点 列 ， 一 般 需 要 经 过 平移 、 旋 转 和 缩放 等 坐标 变换 ， 才 能 和 目标 模型 进行 匹配 。 

口 坐标 变换 

模型 的 坐标 变换 为 : 


X=Tr r,so (XY+Pb) 
函数 Ty,sw 实现 平移 、 旋 转 和 缩放 : 


x)_(X, ScosO -ssinO\(x 
td | 下 SSsin0 cosO 八 了 
其 中 ，( 马 ,7,s0) 为 坐标 变换 参数 ，(X,,Y) 对 应 平移 ，s 对 应 缩放 ，0 对 应 旋转 。 


口 匹配 过 程 
已 知 ASM 模型 ， 对 于 图 像 中 的 一 个 测试 点 列 Y， 求 取 其 最 优 的 形变 参数 b 和 对 应 
的 坐标 变换 参数 (X,,%,s,9) 。 该 匹配 过 程 可 以 表述 为 下 式 的 最 小 化 问题 ; 


-Tso (F+ Po)| 


可 以 使 用 算法 2.1 所 示 的 迭代 方法 求解 。 


算法 2.1 ASM 模型 匹配 算法 

过 程 : 1. 初始 化 形变 参数 p=0， 对 应 平均 模型 ; 
2. 利用 模型 及 其 参数 p， 生 成 模型 实例 六 = 对 + Pb ; 
3. 求 取 模型 实例 与 测试 点 列 了 之 间 的 最 佳 坐 标 变换 参数 (X,Y,s,9) ; 
4. 利用 最 佳 坐标 变换 参数 ， 将 了 映射 到 归 一 化 坐标 下 ， 得 立 : 
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?= Tl (7); 
5. 求 取 这 对 应 的 形变 参数 bp: b=P (了 -) ; 
6. 判断 收敛 性 ， 如 果 没 有 收敛 ， 跳 转 到 步骤 2， 如 果 收 敛 ， 算 法 结束 。 此 
处 收敛 的 含义 为 当 次 迭代 没有 使 形变 参数 或 者 坐标 变换 参数 产生 显著 
变化 。 
3. 主动 形状 模型 的 应 用 


口 建 模 
利用 如 图 2.8 所 示 的 手掌 图 像 ， 建 立 手掌 边界 ASM 模型 。 


图 2.8 手掌 边界 建 模 
2.8 中 红色 和 绿色 的 点 均 为 模型 的 标记 点 ， 红 色 的 点 是 易于 检测 的 特征 点 ， 绿 色 
的 点 是 特征 点 之 间 的 插值 点 。 这 些 点 及 其 邻接 关系 共同 表征 手掌 形状 ,图 2.9 是 标注 好 
的 训练 样本 图 像 集 。 
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| 
2.9 手掌 建 模 训 练 样 本 


利用 如 图 2.9 所 示 的 训练 样本 ， 可 以 得 到 手掌 模型 ， 如 图 2.10 所 示 。 其 中 绿色 的 点 
列表 示 模 型 的 平均 形状 不 ， 红 色 和 蓝 色 的 点 列表 示 某 个 记 取 值 为 33 时 的 形状 。 


ql oo a 


we ” -一 一 


(a) 4 = 56631 (b) A = 43776 (c) 4 =7116 
图 2.10 手掌 模型 及 其 变形 

可 以 看 到 , 前 两 个 特征 值 比较 大 ,形变 比较 剧烈 ， 第 三 个 特征 值 较 小 ,形变 也 较 小 。 

口 匹配 

对 某 测试 图 像 ， 选 定 一 个 初始 位 置 ， 利 用 前 述 的 迭代 算法 ， 可 以 求 取 不 断 优 化 的 形 
变 参数 ， 实 现 目标 的 检测 与 定位 。 

在 图 2.11 (a) 中 ， 蓝 色 点 列 代表 迭代 初始 位 置 ， 由 人 工 给 定 。 在 图 2.11 (b)、(c) 
中 ， 蓝 色 点 表示 某 步 迭代 前 的 标记 点 位 置 ， 红 色 点 为 迭代 后 的 标记 点 位 置 ， 当 迭代 不 能 
进一步 优化 时 ， 输 出 检测 结果 。 图 2.11 (c) 为 最 终 匹 配 结果 ， 图 2.11 (d) 为 分 割 效果 ， 
最 终结 果 能 够 对 手掌 区 域 进行 合理 的 检测 及 定位 。 
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匹配 初始 位 置 Cb) 匹配 中 间 结 果 


(a 


(c) 匹配 最 终结 果 (d) 检测 分 割 效果 
图 2.11 匹配 过 程 及 结果 
4. 讨论 
形状 模型 有 其 适用 的 条 件 和 局 限 性 ， 在 其 适用 的 范围 内 ， 该 模型 有 显著 优势 。 在 适 


的 范围 外 ， 其 效果 可 能 较 差 ， 甚 至 不 能 使 用 。 


形状 模型 适用 的 条 件 有 : 

口 目标 具有 显著 的 形状 特征 ， 如 手掌 、 人 脸 。 

口 可 以 找到 一 定数 量 的 典型 样本 ， 实 现 人 工 标 记 。 

口 可 以 基本 准确 地 确定 目标 初始 位 置 ， 否 则 迭代 算法 容易 陷入 极 小 局 部 ， 难 以 收 
伊 。 

口 目标 的 拓扑 结构 不 能 发 生变 化 ， 目 标 上 必须 有 明显 的 标记 点 。 当 目标 具有 多 种 
形态 时 ， 该 方法 一 般 不 适用 ， 如 树 、 烟 、 水 等 。 

形状 模型 只 能 在 训练 样本 限定 的 范围 内 变化 ， 提 高 样本 多 样 性 ， 可 以 有 效 提升 模型 


的 适用 范围 。 对 于 视频 跟踪 ， 该 算法 具有 一 定 优势 ， 前 一 帧 的 检测 结果 可 以 作为 下 一 帧 
的 初始 位 置 。 


20 视觉 大 数据 基础 与 应 用 


2.4 


人 体 可 变形 模型 


运动 目标 的 检测 与 跟踪 是 海量 视频 处 理 的 重要 课题 ,本 节 介 绍 人 体 可 变形 模型 在 人 


的 检测 、 跟 踪 及 姿态 估计 中 的 应 用 。 


1. 人 体 可 变形 模型 的 背景 


人 体 可 以 表示 为 不 同 组 件 及 其 相对 关系 的 综合 ， 人 的 运动 体现 为 不 同 组 件 相 对 关系 


的 变化 。 


图 2.12 给 出 了 人 脸 和 人 体 的 组 件 模型 。 人 脸 由 眼睛 、 鼻 子 、 嘴 巴 、 耳 条 等 组 件 依照 
一 定 相对 关系 组 成 。 人 体 可 以 分 解 为 躯干 、 四 肢 和 头 部 。 人 体 在 运动 过 程 中 ， 其 组 件 的 
相对 位 置 变 化 遵循 一 定 的 规律 。 人 体 可 变形 模型 ， 就 是 利用 这 些 固有 的 约束 ， 高 效 地 实 


现 人 的 检测 、 跟 踪 及 姿态 估计 。 


(a) 人 脸 组 件 模型 


口 
J 
ol 


(b) 人 体 组 件 模型 


图 2.12 人 脸 和 人 体 的 组 件 模型 


2. 人 体 可 变形 模型 的 建 模 
口 组 件 的 建 模 


组 件 的 识别 与 定位 是 人 体 可 变形 模型 的 基础 。 组 件 识 别 有 多 种 方法 ， 可 以 是 利用 颜 


色 模 型 的 皮肤 检测 ; 可 以 是 利用 SIFT 算 子 的 关键 点 检测 ; 也 可 以 是 基于 HOG 算 子 的 区 


域 检测 。 


HOG 算 子 在 组 件 建 模 中 应 用 较 多 ， 其 检测 的 评价 指标 可 以 表示 为 模型 与 局 部 特征 


的 卷 积 ， wp(1,4) 。 其 中 ww 是 引 


有 件 的 模型 ，p(1,4) 是 目标 图 像 局 部 区 域 的 HOG 特征 。 
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口 结构 的 建 模 

结构 就 是 组 件 间 的 相对 位 置 关 系 。 组 件 在 目标 中 的 相对 位 置 参数 ， 可 以 通过 对 样本 
的 统计 得 出 ， 往 往 归结 为 最 大 似 然 估计 问题 。 

口 模型 的 推理 

模型 的 推理 可 以 理解 为 一 个 优化 问题 , 求 取 最 优 的 组 件 位 置 ， 综 合 局 部 检测 算 子 的 
评价 和 各 个 组 件 之 间 的 相对 位 置信 息 ， 使 得 总 体 的 评价 最 高 。 模 型 的 推理 ， 往 往 归结 为 
最 大 后 验 估计 问题 。 

3. 人 体 可 变形 模型 的 应 用 


人 体 可 变形 模型 主要 应 用 于 人 的 检测 、 跟 踪 、 姿 态 估计 。 

使 用 人 体 可 变形 模型 可 以 实现 人 的 检测 。 由 于 使 用 组 件 及 其 相对 位 置 关系 ， 检 测 精 
度 和 稳定 性 较 高 。 由 于 需要 对 组 件 进行 建 模 ， 于 是 需要 人 体 在 图 像 中 占有 一 定 的 像素 数 
目 。 当 图 像 中 的 人 很 小 而 无 法 有 效 检测 各 个 部 分 时 ， 该 方法 的 效果 并 不 理想 。 

对 于 人 的 跟踪 , 该 模型 有 两 种 方法 。 第 一 种 , 将 前 一 帧 的 结果 作为 当前 帧 的 初始 值 ， 
在 此 基础 上 求 出 优化 的 结果 ; 第 二 种 ， 各 帧 独立 检测 ， 通 过 后 处 理 实现 跟踪 ， 如 对 目标 
运动 的 错误 检测 、 低 通 滤波 。 

由 于 人 体 可 变形 模型 已 经 求 出 各 个 组 件 及 其 相对 位 置 ， 于 是 可 以 估计 人 体 姿态 信 
息 ， 如 站 立 、 行 走 、 弯 腰 等 。 


2.5 混合 高 斯 模型 
混合 高 斯 模型 是 视频 图 像 处 理 的 基础 模型 ， 本 节 介绍 混合 高 斯 模型 的 定义 、 参 数 求 
取 和 应 用 实例 。 
1. 混合 高 斯 模型 的 定义 
混合 高 斯 模型 是 高 斯 模型 的 扩展 ， 是 多 个 高 斯 模型 的 线性 组 合 。 


假设 样本 x 是 = 的 实例 ，z 可 能 属于 个 类 别 中 的 任何 一 类 ， 并且 属 于 第 类 的 概 
率 为 zt; 每 个 类 别 的 样本 均 满足 一 个 高 斯 分 布 N(x|44,Z) ， 于 是 x 的 概率 分 布 表示 为 


pW)= Ep(e)p(d)= DmN(sles,) 


图 2.13 给 出 了 天 为 3 时 二 维 空间 中 某 混 合 高 斯 分 布 的 示意 图 ， 单 一 的 高 斯 模型 无 
法 精确 地 刻画 该 分 布 ， 混 合 高 斯 模型 能 够 提高 模型 的 适应 性 。 
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图 2.13 混合 高 斯 模型 示意 图 
2. 混合 高 斯 模型 的 参数 求 取 


假设 有 NN 个 样本 点 {x1,…,xN}， 以 此 建立 混合 高 斯 模型 ， 即 求 取 高 斯 模型 的 各 个 参 
数 ， 包 括 五 、 从 、Zx 。 

混合 高 斯 模型 的 求解 常用 EM (Expectation Maximization) 估计 法 ， 通 过 逐步 迭代 
策略 实现 模型 参数 的 估计 和 优化 ,包括 两 个 迭代 步骤 , 即 E 步骤 和 M 步骤。EM 估计 法 
的 具体 实现 流程 如 下 。 


算法 2.2 EM 算法 


过 程 : 1. 初始 化 
初始 化 zt、j、Z， 可 以 随机 选取 ， 也 可 先 用 K-Means 聚 类 估计 。 


2.E 步 又 
计算 每 个 样本 属于 K 个 类 别 的 概率 
5 区 了 Cs: 
SN(le,s,) 
3. M 步骤 


计算 各 类 别 的 模型 参数 


a 
HH: = 和 A 


第 2 章 海量 视频 模型 23 


Ce i pa 
Zt = 计 7() (5 -A )(% -4 ) 


k n=l 


Ni = 27(zn) 
4. 收敛 性 判断 
计算 X 属于 该 模型 的 评价 函数 
Inp(X|1,2,7)= Sn {Sr Ws 中 
当 该 函数 趋 于 稳定 ， 或 模型 参数 不 再 变化 时 ， 算 法 收敛 ， 和 迭代 结束 ; 否 
则 ， 转 到 步骤 2。 


如 图 2.14 所 示 ， 利 用 EM 估计 法 可 以 求 取 混 合 高 斯 模型 的 参数 ， 该 方法 假设 天 值 
已 知 ， 左 图 为 待 估计 数据 ， 右 图 为 K=3 时 的 混合 高 斯 模型 估计 结果 。 


(a) 待 估计 数据 (b) K=3 时 混合 高 斯 模型 估计 结果 


图 2.14 基于 EM 方法 的 高 斯 模型 估计 
3. 混合 高 斯 模型 的 应 用 实例 
混合 高 斯 模型 最 典型 的 应 用 是 监视 场景 的 背景 建 模 与 运动 目标 检测 , 通过 建立 背景 
模型 ， 检 测 运动 目标 。 
如 图 2.15 所 示 , 在 某 监 控 场 景 中 ,摄像 机 位 置 固 定 ， 对 每 个 像素 建立 独立 的 混合 高 
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斯 模型 ， 根 据 实 时 的 视频 图 像 数 据 动态 更 新 模型 参数 。 对 于 新 来 的 像素 ， 通 过 判断 其 属 
于 背景 的 概率 来 分 辨 运动 物体 和 静态 场景 。 
如 图 2.15 所 示 , 左 图 为 当前 帧 的 图 像 ; 右 图 为 基于 混合 高 斯 模型 的 运动 目标 检测 效 
果 ， 白 色 表示 其 为 运动 目标 的 概率 大 ， 黑 色 表示 其 为 背景 的 概率 大 。 
该 模型 可 以 较 好 地 估计 运动 目标 , 可 以 适应 光照 的 缓慢 变化 。 在 运动 目标 (如 汽车 ) 
尾部 存在 一 定 的 拖 尾 现象 ， 对 于 运动 目标 上 大 面积 相同 颜色 的 区 域 也 存在 漏 检 现 象 ， 这 
些 问 题 站 来 解决 。 


(a) 视频 图 像 (b) 运动 目标 检测 效果 


图 2.15 基于 混合 高 斯 模型 的 运动 目标 检测 


2.6 ”概率 图 模型 


概率 图 模型 是 概率 论 和 图 论 的 综合 , 采 
性 ， 给 出 随机 变量 的 联合 概率 分 布 。 

1. 概率 图 模型 的 表述 

概率 图 模型 由 节点 和 连接 组 成 , 采用 节点 表示 随机 变量 , 采用 节点 间 的 连接 表示 随 
机 变量 之 间 的 条 件 独 立 性 。 概 率 图 的 整体 表述 随机 变量 的 联合 概率 分 布 。 概 率 图 模型 可 
以 分 为 有 向 图 模型 、 无 向 图 模型 和 因子 图 模型 。 

口 有 向 图 模型 

有 向 图 模型 即 贝 叶 斯 网 络 ， 其 图 结构 是 有 向 无 环 图 ， 有 向 的 连接 表示 因果 关系 ， 节 
点 上 存储 的 往往 是 随机 变量 之 问 的 条 件 概率 表格 ， 其 联合 概率 分 布 可 依 全 概率 公式 给 
出 。 图 2.16 (a) 是 某 有 向 图 模型 的 实例 。 


图 的 方式 来 探究 随机 变量 之 间 的 条 件 独立 
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口 无 向 图 模型 

无 向 图 模型 即 马 尔 科 夫 网 络 ， 其 图 结构 是 无 向 图 ， 无 向 的 连接 表示 变量 之 间 的 相关 
性 ， 其 联合 概率 分 布 定义 为 子 集 势能 函数 的 乘积 。 图 2.16 (b) 是 某 无 向 图 模型 的 实例 。 

口 因子 图 模型 

因子 图 模型 即 双 相 图 模型 ， 包 含 两 组 不 同 的 节点 。 一 组 节点 表示 随机 变量 , 一 组 节 
点 表示 因子 ， 连 接 只 存在 于 两 种 不 同 的 节点 间 ， 其 联合 概率 分 布 采用 因子 乘积 表示 。 图 
2.16 〈c) 是 某 因子 图 模型 的 实例 。 


Ge 一 一 总 GD—AD CY (2 
bo Je SQ 


(a) 有 向 图 (b) 无 向 图 (c) 因子 图 
图 2.16 概率 图 模型 的 表述 


2. 概率 图 模型 的 学 习 


为 了 使 用 概率 图 模型 ， 必 须 给 定 模型 中 的 参数 。 概 率 图 模型 的 参数 可 以 人 工 给 出 ， 
如 由 贝 叶 斯 网 络 构成 的 专家 系统 给 出 ， 其 参数 往往 是 专家 经 验 的 汇总 ， 其 中 的 连接 表示 
因果 关系 ， 条 件 概率 表征 可 能 性 的 大 小 。 当 概率 图 的 规模 变 得 很 大 时 ， 人 工 指定 参数 的 
方法 难以 实现 ， 于 是 就 有 基于 学 习 的 自动 参数 生成 法 。 概 率 图 模型 的 学 习 ， 就 是 基于 样 
本 集合 推断 概率 图 中 的 模型 参数 。 

口 产生 式 学 习 (generative learning ) 

给 出 目标 模型 的 样本 集合 ， 求 取 概 率 图 模型 近似 目标 模型 的 联合 概率 分 布 。 由 于 求 
取 的 是 产生 样本 的 模型 ， 于 是 叫做 产生 式 学 习 。 求 出 概率 图 模型 之 后 ， 其 他 感 兴趣 的 量 
就 可 以 方便 得 出 。 在 实际 应 用 中 ,尤其 是 在 样本 数目 有 限 的 条 件 下 ， 该 方法 很 难得 到 满 
意 的 结果 。 

口 分 辨 式 学 习 (discriminative learning ) 

当 使 用 概率 图 模型 的 目的 不 是 完整 的 建 模 ， 而 是 分 类 ， 即 推断 某 些 变量 的 类 别 属性 
时 ， 可 以 使 用 分 辩 式 学 习 。 该 方法 直接 优化 分 类 误差 ， 无 须 对 样本 模型 整体 建 模 ， 便 可 
以 得 到 更 好 的 分 类 效果 。 
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3. 概率 图 模型 的 推理 


推理 就 是 在 可 以 部 分 观察 到 某 些 变量 的 基础 上 ， 利 用 概率 图 模型 ， 计 算 某 些 变量 的 
分 布 ， 或 者 某 些 变量 的 最 大 似 然 估计 。 

口 准确 推理 

如 果 图 的 结构 是 树 ， 那 么 BP 算法 (Belief Propagation) 可 以 准确 求解 其 边缘 分 布 。 
对 于 任意 的 图 结构 ， 可 以 使 用 交叉 树 算法 〈Junction Tree Algorithm ) 求解 。 在 图 结构 复 
杂 、 规 模 庞 大 时 ， 准 确 求 解 变 得 非常 慢 ， 通 过 近似 求解 算法 可 以 实现 近似 的 、 高 效 的 推 
理 计算 。 

口 近似 推理 

近似 推理 法 主要 有 变 分 算法 (Variational Methods)、 循 环 信息 传递 法 (Loopy Message 
Passing)、 基 于 采样 的 方法 (Sampling Methods )。 


2.7 感 兴趣 区 域 模型 (RO1) 


感 兴趣 区 域 模型 (Region of Interest，ROI) 在 视频 图 像 处 理 中 有 着 广泛 的 应 用 ， 本 
节 介 绍 感 兴趣 区 域 模型 的 定义 和 应 用 。 


1. 感 兴趣 区 域 模型 ROI) 的 定义 


感 兴趣 区 域 (ROI) 是 通过 预 处 理 〈 人 工 或 者 自动 ) 选 出 的 特定 区 域 ， 通 常 对 ROI 
数据 进行 特别 处 理 ， 提取 ROI 对 于 提高 数据 利用 率 具 有 重要 意义 。 
感 兴趣 区 域 的 应 用 价值 如 下 : 


口 节省 存储 空间 ， 对 于 感 兴趣 区 域 之 外 的 区 域 ， 可 以 采用 压缩 比 更 高 的 算法 ， 实 
现 对 数据 的 高 效 存储 。 

口 节省 处 理 时 间 ， 仅 对 感 兴趣 区 域 进行 重点 处 理 ， 可 以 有 效 节省 算法 运行 时 间 。 

口 提高 处 理 效 果 ， 在 节省 空间 、 节 省 时 间 的 条 件 下 ， 可 以 综合 多 种 算法 ， 提 高 处 
理 效果 。 


如 图 2.17 所 示 ， 对 于 假想 的 金库 入 口 监控 图 像 ， 金 库 入 口 区 域 是 处 理 重 点 ， 可 以 选 
择 方 框 所 示 区 域 为 感 兴趣 区 域 。 重 点 区 域 占 整个 图 像 的 面积 不 到 一 半 ， 对 该 区 域 的 针对 
性 处 理 ， 可 以 有 效 提高 存储 和 计算 的 效率 。 


第 2 章 海量 视频 模型 27 


图 2.17 ROI 示 意图 
2. 感 兴趣 区 域 模型 ROI) 的 应 用 


ROI 模型 在 空域 和 时 域 的 应 用 示例 中 ，ROI 区 域 可 以 通过 人 机 交互 选 定 ， 也 可 以 通 
过 一 定 的 预 处 理 算法 自动 提取 。 

口 空域 ROI 的 应 用 示例 

如 图 2.18 所 示 ， 在 道路 监控 视频 图 像 中 ,包含 天 空 、 高 架 桥 、 树 木 、 绿 化 带 和 道路 
区 域 。 如 果 需 要 设计 监控 程序 监控 道路 车 辆 运行 情况 ， 那 么 可 以 选择 图 中 标示 的 感 兴趣 
区 域 ，ROI 之 外 存在 感 兴趣 车 辆 的 概率 几乎 为 0。 这 个 ROI 区域， 可 以 人 工 选 定 ， 也 可 
以 通过 分 析 运 动 目 标 得 出 。 


图 2.18 ”空域 ROI 示意 图 


口 时 域 ROI 的 应 用 示例 
如 图 2.19 所 示 , 假设 某 校园 内 的 监控 摄像 头 , 通过 背景 建 模 , 可 以 计算 得 到 视频 图 
像 的 场景 变化 指数 , 即 颜色 / 灰 度 变化 超过 一 定 阔 值 的 像素 数目 。 考 虑 到 光照 和 树叶 摇晃 
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等 干扰 因素 的 影响 ,选择 一 定 阔 值 ， 如 图 2.19 中 虚线 所 示 ， 虚 线 以 下 区 域 认 为 场景 变化 
较 小 ， 了 予以 简化 处 理 ; 虚线 以 上 区 域 确定 为 ROI， 了 予以 重点 分 析 ， 这 样 可 以 缩减 约 2/3 
的 处 理 时 间 和 存储 空间 。 


ROL1 ROI-2 


0 12345678 910 1112 时 间 / 小 时 


图 2.19 时 域 ROI 示意 图 
2.8 视觉 显著 性 模型 


人 类 的 视觉 系统 可 以 通过 选择 性 注意 机 制 有 选择 地 关注 重点 区 域 , 加 速 视觉 处 理 过 
程 ， 完 成 视觉 任务 。 本 节 介绍 视觉 显著 性 模型 ， 模 拟人 类 视觉 注意 机 制 ， 提 取 场 景 的 显 
著 性 度量 。 

1. 视觉 显著 性 模型 简介 

视觉 显著 性 模型 可 以 分 为 自 项 向 下 和 自 底 向 上 两 种 思路 。 自 顶 向 下 是 任务 驱动 模 
型 ， 针 对 特定 目标 ， 其 实现 与 具体 任务 相关 ， 速 度 较 慢 。 自 底 向 上 是 特征 驱动 模型 ， 不 
针对 特定 目标 ， 具 有 一 定 通用 性 ， 速 度 较 快 。 

通过 视觉 显著 性 度量 ， 有 选择 地 关注 、 处 理 视觉 信息 ， 可 以 有 效 利用 计算 资源 、 加 
速算 法 、 提 高 效率 。 

图 2.20 (a) 为 自 顶 向 下 显著 性 分 析 示 例 ， 根 据 任务 目标 ， 在 图 像 中 检测 牛 ， 可 以 
将 目标 检测 结果 的 位 置 和 置信 度 作为 其 显著 性 的 度量 。 

图 2.20(b) 为 自 底 向 上 显著 性 分 析 示 例 ， 通 过 分 析 每 个 位 置 特征 与 其 周边 区 域 特 
征 的 差异 性 ， 将 不 同 的 、 显 著 的 地 方 凸显 出 来 。 
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(a) 自 项 向 下 : 目标 、 检 测 (Cb) 自 底 向 上 : 特征 、 凸 显 
图 2.20 视觉 显著 性 模型 示例 
2. ltti 模型 


Itti 模型 属于 自 底 向 上 的 显著 性 模型 ， 该 模型 分 为 3 步 : 底层 特征 提取 、 显 著 性 综 
合 度量 、 注 意 机 制 模拟 。Itti 模型 的 处 理 流程 图 如 图 2.21 所 示 。 


中 心 -边缘 差分 与 归 一 化 
一 一 > 特征 图 ee- 


> 
一 —— 一 
< 《12 个 ) (6 个 ) -< 0C4 人 < 
跨 尺度 合并 与 归 一 化 
一 一 显 着 性 图 一 > 一 
局 部 抑制 


注意 位 置 


图 2.21 Itti 模型 处 理 流程 图 
口 底层 特征 提取 
底层 特征 提取 包括 两 部 分 : 视觉 特征 提取 和 视觉 特征 差分 。 
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视觉 特征 提取 从 输入 图 像 中 提取 基本 的 视觉 特征 。 该 模型 使 用 3 种 常用 的 视觉 特征 : 
颜色 、 亮 度 、 梯 度 方向 。 其 中 颜色 分 量 建立 红色 R、 绿 色 G、 蓝 色 B、 黄 色 Y 各 个 分 量 
的 高 斯 金字 塔 。 亮 度 分 量 使 用 颜色 的 加 权 平 均 作为 亮度 ， 并 建立 其 高 斯 金字 塔 。 梯 度 方 
向 利用 Gabor 滤波 器 组 实现 4 个 方向 的 边缘 强度 计算 ， 建 立 各 自 的 高 斯 金字 塔 。 

视觉 特征 差分 利用 各 个 高 斯 金字 塔 中 不 同 尺 度 图 像 间 的 差分 , 得 到 不 同位 置 的 中 心 
- 邻 域 响应 。 在 差分 运算 时 ， 将 低 分 辨 率 的 图 像 插 值 后 与 高 分 辨 率 图 像 直接 做 差分 。 

口 显著 1 性 综合 度量 

显著 性 综合 度量 包括 两 部 分 : 特征 归 一 化 和 特征 融合 。 

由 于 不 同 特征 各 自 的 特性 不 同 ， 无 法 将 其 直接 组 合 ， 需 要 经 过 归 一 化 操作 。 归 一 化 
通过 分 析 各 个 特征 图 的 全 局 最 大 值 和 局 部 极 大 值 ， 对 各 个 特征 赋予 不 同 的 权 值 系数 。 

在 特征 归 一 化 之 后 ， 首 先 将 不 同 尺度 下 的 特征 图 统一 到 中 间 尺 度 ， 然 后 通过 逐 点 相 
加 得 到 各 分 量 的 显著 性 响应 ， 最 后 将 各 个 分 量 的 平均 值 作 为 最 终 的 显著 性 度量 。 

口 注意 机 制 模拟 

注意 机 制 模拟 可 以 理解 为 极 大 值 注意 、 局 部 抑制 、 注 意 转移 。 首 先 关注 显著 性 最 大 
的 点 ， 然 后 抑制 最 大 值 点 及 其 局 部 邻 域 的 显著 性 ， 最 后 关注 显著 性 最 大 的 点 ， 并 以 此 类 
推 。 

3. ltti 模型 应 用 示例 

在 视频 图 像 处 理 中 ， 合 理 使 用 视觉 显著 性 模型 ， 可 以 实现 高 效 的 分 析 处 理 。 假 设 需 
要 设计 某 景区 监控 机 器 人 的 视觉 系统 ， 通 过 视觉 处 理 算法 检测 场景 中 的 行人 。 如 果 平 台 
是 持续 运动 的 ， 那 么 背景 建 模 方 法 会 有 一 定 的 困难 。 下 面 给 出 Itti 模型 在 该 任务 中 的 应 
用 。 


图 2.22 所 示 的 3 个 场景 , 分 别 对 应 景区 常见 的 雪 地 、 沙 漠 和 丘陵 。 为 了 检测 其 中 的 
行人 ， 可 以 使 用 通用 的 行人 检测 算法 ， 为 了 提高 检测 的 效率 ， 可 以 融合 显著 性 模型 。3 
幅 图 像 对 应 的 显著 性 度量 如 右 图 所 示 ， 对 于 第 一 、 第 二 个 场景 ， 由 于 人 与 背景 特征 的 差 
异 ， 其 人 所 在 区 域 显著 性 较 大 ， 利 用 显著 性 度量 有 利于 行人 的 检测 与 定位 。 在 第 三 幅 图 
像 中 ， 行 人 区 域 有 一 定 的 显著 性 ， 但 是 由 于 树木 和 草地 的 区 别 性 ， 树 木 区 域 也 被 赋予 很 
高 的 显著 性 。 在 这 种 情况 下 ， 将 显著 性 度量 作为 预 处 理 环节 ， 对 行人 检测 依然 有 一 定 的 
帮助 。 


图 2.22 Itti 模型 应 用 示例 
2.9 多 分 辩 率 模型 


视频 图 像 的 多 分 辩 率 模型 是 视频 图 像 处 理 的 重要 方法 ,本 节 阐 述 多 分 辨 率 模型 的 背 


景 、 组 成 和 应 
1. 多 分 辨 率 模型 的 背景 


在 视频 处 理 中 ， 由 于 视频 采集 视角 、 焦 距 的 多 样 性 ， 目 标 在 视频 图 像 中 往往 跨越 不 
同 尺 度 而 存在 。 如 图 2.23 所 示 , 不 同 距离 上 的 车 辆 表现 为 大 小 不 一 的 图 像 区域 。 为 了 可 
靠 地 检测 、 跟 踪 车 辆 ， 就 需要 多 分 辨 率 模型 。 
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关于 多 分 辨 率 车 辆 检测 问题 ， 首 先 建立 车 辆 的 单 分 辨 率 模型 和 待 检测 图 像 的 多 分 辩 
率 模型 ， 然 后 对 每 个 分 辩 率 下 的 图 像 进 行 单独 检测 ， 最 后 融合 不 同 分 状 率 下 的 输出 
到 最 终 的 多 分 辩 率 检测 结果 。 


| 


得 


图 2.23 不 同 尺度 的 车 辆 
2. 多 分 辩 率 模型 的 示例 


图 像 金字 塔 是 最 常见 的 多 分 辨 率 模型 ， 有 高 斯 金字 塔 和 拉 普 拉 斯 金字 塔 两 种 实现 形 
式 。 

口 高 斯 金字 塔 

如 图 2.24 所 示 ， 高 斯 金字 塔 包括 两 步 ， 即 高 斯 低 通 滤波 和 欠 采 样 。 首 先 利 用 高 斯 核 
对 图 像 进行 卷 积 ， 然 后 欠 采 样 ， 得 到 不 同 尺 度 下 的 目标 图 像 。 


图 2.24 高 斯 金字 塔 示意 图 


口 拉 普 拉 斯 金字 塔 

拉 普 拉 斯 金字 塔 建立 在 高 斯 金字 塔 的 基础 之 上 , 拉 普 拉 斯 金字 塔 就 是 高 斯 金字 塔 不 
同 层 之 间 的 差分 ， 最 高 层 的 结果 两 者 是 一 样 的 。 图 2.25 给 出 了 与 图 2.24 对 应 的 拉 普 拉 
斯 金字 塔 。 
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图 2.25 拉 普 拉 斯 金字 塔 示 意图 

拉 普 拉 斯 金字 塔 和 高 斯 金字 塔 两 者 之 间 存 在 转换 关系 ， 假 设 高 斯 金字 塔 为 
(G,,Gi,…,G,) ， 拉 普 拉 斯 金字 塔 为 (0,5,…,L,)， 那么 有 Li=G-G。 其 中 ，G 是 G4 的 
扩展 图 像 ， 就 是 通过 线性 插值 得 到 的 与 G 同 分 辩 率 的 图 像 。 

3. 多 分 辩 率 模型 的 应 用 

高 斯 金字 塔 常用 于 图 像 多 尺度 分 析 ， 如 在 不 同 尺 度 下 的 目标 检测 ， 而 拉 普 拉 斯 金字 
塔 常 作为 图 像 压缩 、 图 像 降 噪 的 基础 ， 如 对 特定 尺度 下 的 细节 进行 平滑 和 增强 。 

以 拉 普 拉 斯 金字 塔 用 于 图 像 细 节 增强 为 例 ,首先 将 原始 图 像 分 解 为 两 层 的 拉 普 拉 斯 
人 金字塔; 然后 将 第 一 层 的 高 频 分 量 增强 〈 乘 以 4)， 再 与 第 二 层 图 像 一 起 重建 原始 图 像 ， 
可 以 得 到 增强 后 的 效果 图 。 图 226 (a)、(b) 分 别 对 应 增强 前 后 的 图 像 。 


(a) 原始 图 像 (b) 增强 的 图 像 
图 2.26 基于 拉 普 拉 斯 金字 塔 的 图 像 细 节 增 强 
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2.10 视觉 词 袋 模型 
视觉 词 袋 模型 从 文本 分 析 方 法 借鉴 而 来 ， 广 泛 应 用 于 视频 图 像 处 理 ， 如 目标 识别 。 
1. 视觉 词 袋 模型 的 原理 


视觉 词 袋 模型 来 源 于 文本 分 析 ， 将 文章 理解 为 词语 的 集合 ， 利 用 文章 中 词语 的 直方 
图 分 布 来 表述 文本 ， 实 现 文本 识别 。 将 文章 、 词 语 推广 到 视觉 中 的 目标 、 组 件 ， 得 到 视 
觉 词 袋 模型。 

如 图 2.27 所 示 , 自行 车 和 汽车 都 可 以 表示 为 不 同 组 件 的 集合 , 如 把 手 、 轮胎、 坐垫、 
车 窗 、 车 轮 等 ， 通 过 对 不 同 组 件 的 检测 和 综合 ， 可 以 实现 目标 识别 。 


BHO 


(a) 自行 车 及 其 组 件 (b) 汽车 及 其 组 件 


TDG “GS 


(c) 自行 车 的 词 袋 模型 (d) 汽车 的 词 袋 模型 


开间 


图 2.27 自行 车 和 汽车 的 目标 与 组 件 
2. 视觉 词 袋 模型 的 建 模 
视觉 词 袋 模型 的 建 模 包 括 3 个 步骤 : 特征 定位 与 描述 、 字典 构建 、 目 标 表示 与 分 类 。 
口 特征 定位 与 描述 
特征 求 取 包 括 两 个 关键 步 又: 特征 定位 和 特征 描述 。 
常用 的 特征 定位 方法 有 规则 采样 、 随 机 采样 、 关 键 点 检测 、 基 于 分 割 的 方法 等 ， 图 
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2.28 给 出 了 4 类 方法 的 示意 图 。 前 3 类 先 得 到 点 的 位 置 ， 然 后 计算 点 及 其 邻 域 的 特征 描 
述 ， 基 于 分 割 的 方法 ， 将 每 个 分 割 出 的 小 块 作为 计算 特征 描述 的 单元 。 
常用 的 特征 描述 方法 有 : 颜色 、 梯 度 方 向 、 区 域 统计 等 。 


(a) 规则 采样 (b) 随机 采样 


(c) 关键 点 检测 (d) 基于 分 割 的 方法 


图 2.28 特征 定位 方法 


口 字典 构建 
利用 训练 集中 的 特征 建立 字典 , 然后 采用 字典 表示 各 个 特征 ,字典 构建 有 多 种 方法 ， 


可 以 是 基于 无 监督 的 聚 类 , 如 K-Means; 也 可 以 是 基于 有 监督 的 分 类 , 如 Random Forest。 

如 图 2.29 所 示 , 在 建立 字典 之 后 , 将 各 个 特征 用 字典 来 表示 。 可 以 用 最 近邻 表示 法 ， 
每 个 特征 用 其 在 字典 中 最 接近 的 一 个 条 目 表 示 。 也 可 以 用 基于 有 监督 的 分 类 方法 ， 根 据 
分 类 结果 所 在 的 分 支 确定 其 归属 。 
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(a) 聚 类 -最 近邻 方法 (b) 分 类 方法 


图 2.29 字典 的 构建 


口 目标 表示 与 分 类 

在 建立 字典 和 利用 字典 表示 各 个 特征 之 后 ， 统 计 得 到 图 像 区 域 总 体 的 直方 图 分 布 。 
归 一 化 之 后 的 直方 图 作为 图 像 的 整体 特征 ， 用 于 分 类 和 识别 。 在 分 类 和 识别 中 ， 常 用 的 
是 支持 向 量 机 (SVM )。 

3. 视觉 词 袋 模型 的 讨论 

视觉 词 袋 模型 通过 构建 字典 ， 将 视觉 特征 转化 为 直方 图 ， 以 此 进行 分 类 和 识别 。 该 
算法 通用 性 较 好 ， 对 目标 的 位 移 、 旋 转 等 姿态 变化 有 一 定 的 鲁 棒 性 ， 应 用 广泛 。 

如 图 2.30 所 示 , 视觉 词 袋 模型 没有 使 用 特征 之 间 的 相对 位 置信 息 , 目标 不 仅 是 由 组 
件 构 成 的 ， 组 件 的 相对 位 置 关系 也 是 构成 目标 的 要 素 。 利 用 组 件 及 其 相对 关系 ， 有 助 于 
提升 目标 识别 和 定位 的 效果 。 


一 一 加 
/ 


图 2.30 目标 = 组 件 + 相对 位 置 
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2.11 视频 语义 模型 


随 着 视频 监控 设备 的 广泛 使 用 ,视频 数据 大 量 涌现 。 如 何 合理 地 管理 、 利 用 海量 的 
视频 数据 ， 已 经 成 为 当前 研究 的 重点 和 难点 。 有 效 利 用 视频 数据 的 核心 就 是 高 效 、 精 确 
的 视频 信息 检索 。 本 节 介绍 视频 语义 模型 及 其 在 视频 语义 检索 中 的 应 用 。 

1. 视频 语义 模型 的 简介 

数字 视频 技术 将 视频 数据 编码 为 视频 流 ， 使 计算 机 可 以 采用 数学 方法 表示 、 存 储 和 
处 理 视频 数据 ， 极 大 推动 视频 处 理 技术 的 发 展 。 然 而 ， 这 样 的 表示 方法 依然 无 法 实现 高 
效 的 语义 理解 和 检索 。 

如 图 2.31 所 示 , 视频 语义 模型 将 视频 数据 中 的 对 象 、 事 件 及 其 相互 关系 有 效 组 织 起 
来 ， 为 视频 语义 检索 提供 支持 。 


(a) 初始 帧 


(d) 前 后 帧 的 差分 Ce) 人 体检 测 结果 (f) 行为 检测 结果 
图 2.31 视频 语义 检索 示意 图 
图 2.31 (a)、(b)、(c) 是 一 个 视频 流 中 的 三 帧 图 像 ， 各 帧 间隔 2s 左右 。 在 该 视频 
片段 中 ， 有 3 个 人 物 ， 其 中 两 人 在 交谈 ， 另 外 一 人 完成 一 个 进门 动作 。 
针对 该 视频 片段 ， 假 定 3 个 不 同 层次 的 检测 任务 : 运动 目标 检测 、 人 体 的 检测 、 行 
为 检测 。 运 动 目标 检测 可 以 通过 背景 建 模 、 图 像 差 分 实现 ， 是 对 底层 特征 的 操作 ; 人体 
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的 检测 可 以 通过 分 析 单 帧 图 像 实现 ; 行为 检测 需要 通过 对 多 帧 图 像 的 分 析 得 到 。 视 频 语 
义 检索 ， 就 对 应 诸如 “ 找 出 所 有 两 两 交谈 的 人 ”、“ 找 出 所 有 进入 某 房间 的 人 ”的 处 理 任 
务 。 

为 了 实现 视频 语义 检索 ， 必 须 建 立 视频 语义 模型 。 在 该 任务 中 ， 需 要 包含 对 象 ( 如 
人 、 门 )、 事 件 ( 如 交谈 、 进 门 》 和 关系 (空间 位 置 、 时 间 先 后 )。 交 谈 可 以 通过 检测 人 
及 其 相互 关系 来 实现 , 两 个 人 在 空间 上 邻近 、 姿态 是 面对面 , 甚至 伴 有 一 定 的 肢体 语言 ， 
可 以 初步 判断 为 交谈 行为 。 进 门 可 以 通过 检测 人 、 门 及 其 相互 关系 来 实现 ， 一 个 人 开始 
在 门 外 ， 然 后 在 门 中 ， 之 后 消失 在 门 后 ， 可 以 认定 为 进门 动作 。 

2. 视频 语义 建 模 与 检索 

视频 语义 模型 需要 分 层 结构 ， 视 频 语 义 模型 的 构建 与 具体 需求 相关 ， 需要 根据 实际 
情况 设计 其 功能 和 复杂 度 。 

如 图 2.32 所 示 ，4 层 的 视频 语义 模型 如 下 : 

口 第 一 层 ， 原 始 数据 ， 逐 帧 存储 。 

口 第 二 层 ， 底 层 特征 ， 如 运动 目标 、 光 流 、 磊 色 、 纹 理 。 

口 第 三 层 ， 中 层 信 息 ， 包 括 目标 识别 结果 、 场 景 及 空间 关系 。 

口 第 四 层 ， 高 层 语义 ， 包 括 各 种 行为 的 识别 结果 。 


mx a em [| 
个 


wa [TT TT 
个 


个 
mg | 1 | 2 | | :| | || 


图 2.32 视频 语义 模型 
从 原始 数据 到 高 层 语 义 的 构建 ， 即 视频 语义 建 模 ， 涉 及 图 像 处 理 、 模 式 识别 、 数 据 
库 等 技术 。 图 像 处 理 支持 光 流 计算 、 背 景 建 模 ; 模式 识别 实现 目标 检测 ; 数据 库 技术 可 
以 有 效 组 织 数据 ， 高 效 检索 。 
如 图 2.33 所 示 ， 从 高 层 语 义 到 原始 数据 的 查询 ， 即 视频 语义 检索 。 如 查询 “所 有 的 
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两 两 交谈 ”， 从 高 层 语义 中 提取 交谈 行为 ， 对 应 到 中 层 信息 中 的 交谈 的 人 ， 以 及 相应 底 
层 特 征 的 颜色 、 纹 理 及 对 应 的 原始 帧 号 。 输 出 的 结果 可 以 是 : 在 第 m 帧 到 第 mn 帧 期 间 ， 
人 物 A 与 人 物 B 进行 交谈 ， 人 物 A 穿着 白色 格子 花纹 上 衣 ， 人 物 B 穿着 灰色 上 衣 。 


高 层 语义 


中 层 信息 


底层 特征 


mm [Te T | 


图 2.33 ”视频 语义 检索 


3. 视频 语义 模型 的 讨论 

视频 语义 模型 的 设计 与 使 用 包括 3 个 关键 点 : 模型 的 语义 表达 、 模 型 的 语义 获取 与 
分 析 、 模 型 的 语义 查询 。 

口 模型 的 语义 表达 

需要 支持 的 对 象 、 事 件 和 关系 ; 需要 支持 的 对 象 、 事 件 和 关系 的 属性 ;， 是 否 支持 约 
束 ; 是 否 支持 概率 推理 等 。 

口 模型 的 语义 获取 与 分 析 

是 否 集成 领域 知识 ， 如 何 集成 ; 是 否 需 要 人 工 标注 ， 是 否 涉 及 人 机 交互 ; 是 否 可 以 
推导 隐 含 信息 ; 是 否 可 以 检查 逻辑 错误 等 。 

口 模型 的 语义 查询 

需要 支持 的 查询 种 类 和 接口 ， 是 否 支 持 增 量 查 询 ， 是 否 支持 推理 。 


随 着 视频 监控 系统 和 网 络 视频 的 广泛 应 用 ， 海 量 视频 数据 急剧 膨胀 。 视 频 信息 数据 
量 大 ， 抽 象 程度 低 ， 导 致 处 理 能 力 不 足 ， 大 量 视频 数据 不 能 得 到 有 效 利 用 。 面 向 PB 级 
以 上 的 海量 视频 管理 成 为 研究 热点 ， 核 心 难题 集中 在 海量 视频 的 存储 架构 、 管 理 模型 、 
数据 库 和 管理 系统 等 方面 。 


3.1 视频 数据 库 
3.1.1 海量 视频 数据 


公共 视频 监控 系统 、 个 人 视频 采集 设备 以 及 互联 网 的 迅猛 发 展 ， 极 大 地 方便 和 
了 人 们 的 生活 、 学 习 和 工作 ， 改 变 了 人 们 的 交流 方式 。 

为 了 解决 视频 信息 膨胀 问题 ， 对 包含 大 量 非 结构 化 信息 的 海量 视频 数据 进行 组 织 、 
表达 、 管 理 、 查 询 和 检索 成 为 迫切 需求 。 

海量 视频 数据 形式 多 样 、 类 型 各 异 ， 具 有 如 下 特点 。 

1. 数据 量 巨 大 


数秒 钟 的 视频 片段 其 存储 空间 可 能 为 几 兆 字 节 , 将 对 数据 库 的 组 织 和 存储 方法 产生 
影响 。 


tt 


富 
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对 能 处 理 连续 数据 的 视频 数据 库 要 求 具有 高 速 性 能 。 

2. 存储 方式 多 样 化 

无 法 将 所 有 的 视频 信息 保存 在 某 台 设备 上 ， 常 用 网 络 分 发 ， 对 视频 库 的 数据 存 取 构 
成 挑战 。 

3. 媒体 特性 差异 大 


媒体 种 类 的 增多 增加 了 数据 处 理 的 复杂 度 , 视频 不 仅 具 有 多 种 分 辨 率 、 视 场 、 大 小 ， 
而 且 视 频 文件 有 多 种 存储 格式 ， 如 AVI、MPEG-X、MJPEG、H.26x、ASF、RM 等 。 

不 同 格式 、 不 同类 型 的 视频 文件 其 数据 处 理 方法 各 不 相同 ， 因 此 需要 视频 数据 库 具 
有 不 断 增 加 新 的 媒体 支持 类 型 及 相应 处 理 方法 的 能 力 。 

4. 接口 形式 复杂 


视频 数据 具有 复合 、 分 散 和 时 序 等 特性 , 采用 简单 的 基于 字符 的 检索 方式 效果 较 差 ， 
而 应 采用 基于 视频 内 容 语义 的 检索 方式 。 

视频 对 数据 库 的 影响 涉及 数据 库 的 用 户 接口 、 数 据 模型 、 体 系 结构 、 数 据 操纵 以 及 
数据 应 用 等 方面 。 


3.1.2 面向 对 象 的 海量 视频 数据 库 


1. 传统 数据 库 的 局 限 性 

传统 数据 库 主要 依赖 人 工分 析 实 现 视频 标注 ， 建 立 类 似 于 文本 文献 的 索引 数据 库 
通过 检索 获得 视频 编号 ， 利 用 这 些 编号 获取 对 应 视频 ， 属 于 关系 数据 库 。 在 海量 视频 背 
景 下 ， 传 统 数据 库 的 局 限 性 有 : 

口 对 视频 加 注 文本 信息 由 手工 完成 ， 费 时 费力 ; 

口 文本 描述 信息 是 操作 者 的 主观 描述 ， 导 致 描述 多 样 化 ; 

口 文字 标注 难以 刻画 视频 的 全 部 内 容 ; 

口 文字 标注 具有 语言 、 民 族 、 地 域 差异 ， 难 以 成 为 通用 描述 。 

为 了 克服 传统 关系 数据 库 工 作 量 大 、 主 观 性 强 和 特征 描述 能 力 有 限 的 弊端 ， 首 先 由 
计算 机 自动 提取 视频 对 象 的 高 层次 特征 ， 然 后 进行 视频 分 割 ， 最 后 按照 这 些 客观 特征 进 
行 大 规模 的 视频 数据 检索 。 
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2. 面向 对 象 的 视频 数据 库 的 特点 
面向 对 象 的 视频 数据 库 的 结构 如 图 3.1 所 示 。 


特征 提取 子 系统 


3 
| 
册 
卓 


识 库 索引 /过 滤 


图 3.1 基于 特征 自动 提取 的 视频 数据 库 


面向 对 象 的 视频 数据 库 突破 了 传统 数据 库 的 局 限 性 , 融合 了 模式 识别 、 计 算 机 视觉 、 
图 像 理 解 等 技术 ， 具 有 5 个 显著 特点 : 


口 


[= 


直接 分 析 图 像 内 容 ， 提 取 语 义 级 特征 ， 检 索 更 有 效 ， 适 应 性 更 强 ; 

字符 检索 采用 精确 匹配 方式 ， 图 像 检索 采用 相似 匹配 方式 ; 

由 用 户 参 与 的 检索 过 程 ， 可 以 不 断 改进 检索 方式 ， 交 互 性 强 ; 

包括 图 像 库 、 特 征 库 和 知识 库 ， 可 以 满足 多 层次 的 检索 要 求 ; 

图 像 检索 采用 示例 查询 法 ， 当 用 户 不 清楚 准确 的 检索 要 求 或 图 像 信息 时 ， 可 以 
输入 或 选择 相似 的 示例 图 像 ， 或 是 绘制 参考 图 形 作为 检索 条 件 ， 利 用 检索 结果 
进行 检验 ， 对 检索 条 件 做 出 修正 。 


3.2 ”集中 式 视频 数据 库 


如 图 3.2 所 示 ， 集 中 式 视频 数据 库 由 中 心 处 理 器 、 视 频数 据 存储 设备 、 其 他 外 围 设 
备 组 成 ， 该 数据 库 物 理 上 被 定义 为 专 有 位 置 ， 具 备 数 据 处 理 和 管理 能 力 ， 用 户 可 以 在 相 
同 站 点 ， 或 位 于 其 他 位 置 的 站 点 上 通过 远程 终端 操作 。 
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本 地 用 户 4 
图 3.2 集中 式 视频 数据 库 
1. 集中 式 视频 数据 库 的 优点 
在 集中 式 视 频数 据 库 里 ， 便 于 实现 常用 的 查询 、 编 辑 、 备 份 、 权 限 设置 等 大 多 数 功 
数据 库 所 处 位 置 灵活 ， 小 型 用 户 可 以 在 PC 上 建立 数据 库 ， 大 型 用 户 可 以 由 大 型 机 
控制 整个 数据 库 。 


2. 集中 式 视频 数据 库 的 缺点 
所 有 用 户 必须 依赖 于 中 心 站 点 计算 机 或 数据 库 正 常 运行 。 
从 终端 到 中 心 站 点 的 通信 开销 昂贵 。 


3.3 ”分 布 式 视频 数据 库 


随 着 视频 监控 系统 和 互联 网 的 发 展 ， 海 量 视频 数据 急剧 膨胀 ， 需 要 安全 、 高 效 地 保 
存 、 分 析 这 些 数据 ， 分 布 式 数据 存储 技术 可 以 较 好 地 满足 此 要 求 。 利 用 该 技术 ， 数 据 被 
存储 在 物理 上 分 散 的 多 个 节点 上 ， 此 类 节点 资源 被 统一 管理 与 分 配 ， 向 用 户 提供 访问 接 
口 ， 从 而 可 以 解决 本 地 文件 系统 在 大 小 、 数 量 等 方面 的 限制 问题 。 
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3.3.1 


Had 
数据 处 下 


基于 Hadoop 的 视频 数据 库 


oop 是 一 种 分 布 式 系 统 的 基础 架构 ， 由 Apache 基金 会 开发 ， 可 用 于 进行 大 规模 
EE， 具 有 如 下 特点 。 


口 海量 存储 : 能 可 靠 地 存储 和 处 理 PB 级 数据 。 

口 成 本 低 : 常用 普通 机 器 组 成 的 服务 器 集群 ， 可 达 数 千 个 节点 。 
口 高 效率 : 通过 分 发 数据 ， 可 以 在 数据 所 在 节点 上 并 行 处 理 。 
口 可 靠 性 : 能 自动 维护 数据 的 多 个 备份 。 


Had 


oop 主要 由 HDFS、MapReduce 组 成 ，HDFS 实现 对 大 规模 数据 的 分 布 式 存储 管 


理 ， 而 MapReduce 则 对 大 规模 数据 进行 分 布 式 计 算 。 
1. HDFS 


如 图 3.3 所 示 ，HDFS (Hadoop Distributed File System ) 基于 JAVA 的 主 /从 模式 ， 支 
持 数 据 密集 型 分 布 式 应 用 。HDFS 由 一 个 命名 节点 和 若干 个 数据 节点 组 成 ， 数 据 节点 的 
数量 不 限 ， 根 据 实际 需求 而 定 ， 可 以 从 一 个 至 数 千 个 。 

每 个 文件 被 分 成 若干 数据 块 ， 这 些 数据 块 被 存放 到 一 组 数据 节点 之 上 ; 数据 节点 根 
据 命 名 节点 的 指令 ， 对 数据 块 进行 创建 、 删 除 和 复制 等 文件 管理 操作 。 


图 3.3 HDFS 结构 


2. 数据 组 织 


Cy 


) 命名 节点 (元 数据 节点 ) 


命名 节点 在 内 存 中 保存 文件 系统 的 元 数据 信息 ， 元 数据 信息 包括 : 


口 文件 列表 信息 ; 

口 每 个 文件 的 块 列表 ; 

口 每 个 块 对 应 的 数据 节点 ; 

口 文件 属性 ， 包 括 创 建 时 间 、 创 建 者 、 副 本 份 数 等 。 


如 图 3.4 所 示 ， 命 名 节点 的 文件 夹 包括 edits、fsimage、fstime 等 文件 。 


$ {dfs.name.dir}/current/VERSION 
/edits 


/fsimage 


/fstime 


图 3.4 命名 节点 文件 夹 的 结构 


口 edits 文件 ， 记 录 文 件 系 统 的 变化 ， 如 创建 、 删 除 、 文 件 副本 数 等 ; 
口 fsimage 文件 ， 是 命名 节点 的 映像 文件 ， 元 数据 在 磁盘 上 的 checkpoint; 
口 fstime 文件 ， 记 录 checkpoint 的 时 间 。 


(2) 数据 节点 

数据 节点 负责 数据 存储 ， 数 据 块 的 复制 操作 由 数据 节点 之 间 的 通信 完成 ， 当 在 客户 
端 写 文件 时 ， 数 据 节点 之 间 相互 配合 ， 以 保证 逻辑 一 致 性 。 

如 图 3.5 所 示 ， 安 装 Hadoop 时 ， 数 据 块 存 放 目 录 由 配置 文件 指定 ， 数 据 存放 在 设 
定 文件 夹 的 dfs/data/current 目录 。 


图 :adir6l 128 项 
图 :udir6> 128 项 
国 subdir63 128 项 
者 bik 244953846541835520 21.6KB 
图 blk ?44953846541835520 4260 meta 183B 
[jblk 1096531559384704428 35B 
国 blk 1096531559384704428 1008.meta 11B 

国 uk 1293064074033438457 139.1KB 


图 3.5 ”current 目录 结构 
current 文件 夹 内 包括 子 目 录 、 数据 块 文件 和 数据 块 元 数据 文件 , 子 目 录 名 从 subdir0 
到 subdir63， 子 目录 下 有 数据 块 文件 和 数据 块 元 数据 。 
数据 块 文件 和 元 数据 文件 的 实例 为 : 
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口 blk <id>， 存 放 HDFS 中 具体 的 数据 块 ; 
口 blk <id>.meta， 保 存 数据 块 的 元 数据 ， 如 版 本 、 类 型 和 checksum 等 。 


3. 数据 流 

(1) 读 文件 流程 

如 图 3.6 所 示 ， 从 HDFS 读 文 件 涉及 client、NameNode、DataNode 3 个 进程 和 
DistributedfileSystem、FSDataInputStream 等 类 的 操作 。 


G0) dient 调用 其 get 方法 获得 HDFS 文件 系统 的 一 个 实例 
(DistributedfileSystem) ， 然 后 调用 DistributedfileSystem 的 open 方法 。 

02 DistributedfileSystem 通过 RPC 远程 调用 NameNode, 取得 文件 数据 块 的 位 
置信 息 ; 对 于 每 个 数据 块 , NameNode 返回 数据 块 所 在 的 DataNode (包括 副本 ) 的 地 址 ， 
DistributedfileSystem 返回 FSDataInputStream 给 client 用 于 读数 据 . 

03 dlient 调用 FSDataInputStream 的 read 方法 。 

I04 FSDataInputStream 连接 保存 此 文件 第 一 个 数据 块 的 最 近 数 据 节 点 , 读数 据 
块 ， 传 回 给 client。 

E305 当 第 一 个 数据 块 读 完 ，FSDataInputStream 关闭 与 该 DataNode 的 连接 ， 然 
后 开始 读 第 二 个 数据 块 。 

ER6 当 dlient 读 文 件 结束 ， 调 用 FSDataInputStream 的 close 方法 。 


FSData namenode 
Input Stream 
client JVM 
client node ! 
二 忒 | ae read 
Ee Eb [| 
datanode datanode datanode 


图 3.6 从 HDFS 读 文件 流程 
(2) 写 文件 流程 
如 图 3.7 所 示 , 对 HDFS 进行 写 操作 过 程 也 相对 比较 复杂 , 需 调 用 client、NameNode、 


第 3 章 海量 视频 管理 47 


DataNode 3 个 进程 以 及 操作 相关 的 DistributedfileSystem、FSDataOutputStream 等 类 。 


ER client 调用 DistributedfileSystem 的 create 方法 ， 创 建文 件 。 

02 DistributedfileSystem 通过 RPC 调用 NameNode, 创建 一 个 文件 到 文件 系统 
的 命名 空间 ， 并 将 FSDataOutputStream 返回 给 client. 

CTI03 client 向 文件 写 数据 , 写 数据 块 时 , DFSOutputStream 把 数据 分 成 若干 数据 
包 (packet) ，FSDataOutputStream 询问 NameNode， 找 到 存储 这 个 数据 块 以 及 副本 的 
DataNode 列表 ;， 该 DataNode 列表 组 成 一 个 管道 ， 由 3 个 DataNode 组 成 。 

C04 FSDataOutputStream 首先 把 数据 包 写 入 管道 的 第 一 个 DataNode, 然后 管道 
把 数据 包 转 发 给 第 二 个 DataNode， 类 似 地 依次 转发 到 最 后 一 个 DataNode。 

05” 当 管道 里 所 有 DataNode 都 写 入 成 功 时 ， 当 前 数据 包 的 写 操作 完成 ， 发 送 
应 答 给 FSDataOutputStream， 开 始 写 下 一 个 数据 包 。 

06 所 有 数据 块 的 写 操作 结束 后 ,client 调 用 FSDataOutputStream 的 close 方法 ， 
关闭 该 新 建文 件 。 

J07 FSDataOutputStream 通知 NameNode， 当 前 文件 的 写 操作 结束 。 


namenode 
clientJVM 


client node 


Pipeline of 
datanodes 


datanode datanode datanode 


图 3.7 向 HDFS 写 数据 流程 


3.3.2 ”MapReduce 模型 


随 着 视频 分 辩 率 的 提升 、 视 频 采 集 系统 规模 的 扩大 以 及 视频 处 理 算法 越 来 越 复杂 ， 
海量 视频 管理 系统 对 计算 能 力 的 要 求 越 来 越 高 ， 并 且 算 法 较 难 并 行 化 。 

分 布 式 计算 以 大 量 普通 计算 机 为 基础 组 建 集 群 , 通过 高 效 的 计算 架构 在 集群 上 分 布 
和 调度 处 理 任务 , 进一步 通过 并 行 处 理 方式 使 计算 机 集群 达到 或 超过 单个 大 型 计算 机 的 
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处 理 能 力 。 集 群 由 同 构 计算 节点 互联 构成 ， 通 过 设计 调度 和 元 余 处 理 策略 来 处 理 可 能 发 
生 的 单 点 故障 问题 ， 实 现 负载 平衡 ， 保 障 系统 效率 和 运行 稳定 。 

海量 视频 管理 需要 处 理 的 数据 量 庞 大 ,算法 类 型 差别 很 大 ， 分 布 式 计算 集群 的 高 度 
可 扩展 性 和 单 节 点 的 通用 性 优势 明显 ， 通 过 增加 或 减少 集群 内 的 计算 机 数量 ， 并 加 以 简 
单 配置 ， 可 灵活 满足 处 理 要 求 。 


1. MapReduce 计算 流程 


Dean J 和 Ghemawat S 在 2004 年 首次 提出 MapReduce 分 布 式 计算 模型 ， 当 时 的 设 
计 需 求 用 于 进行 网 站 日 志文 件 分 析 ; 在 此 基础 上 ，Google 的 Hadoop 项 目 实现 了 该 计算 
模型 。 

MapReduce 模型 主要 通过 Map 和 Reduce 函数 实现 数据 处 理 的 大 规模 并 行 化， 其 计 
算 过 程 包括 两 个 阶段 。Map 函数 将 输入 数据 进行 切 分 ， 并 映射 到 不 同 键 值 之 上 ， 组 成 键 
值 对 ， 被 发 送 给 集群 内 的 主机 进行 处 理 ， 生 成 的 中 间 结 果 以 新 的 键 值 对 的 形式 保存 在 集 
和 群 内 。Reduce 函数 则 收集 具有 相同 键 值 的 中 间 结 果 ， 并 进行 综合 ， 得 到 最 终 输 出 。 

MapReduce 模型 借鉴 函数 式 程序 设计 语言 的 思想 , 把 集群 中 的 分 布 式 并 行 运算 抽象 
为 两 个 阶段 ， 即 Map 函数 阶段 和 Reduce 函数 阶段 ， 并 将 并 行 化 、 容 错 、 数 据 分 布 等 细 
节 对 使 用 者 进行 隐藏 ， 其 执行 过 程 如 图 3.8 所 示 。 


站 


< 


输入 文件 Map 阶 段 写 中 间 文件 Reducc 阶 段 输出 文件 


图 3.8 ”MapReduce 执行 过 程 
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MapReduce 执行 6 个 步骤 ， 可 以 简化 为 3 个 阶段 。 

口 输入 阶段 

Map-Reduce 库 首 先 将 输入 文件 分 割 成 M 片 ， 每 个 片 的 大 小 在 16MB~64MB 之 间 ; 
然后 在 集群 中 随机 大 量 拷贝 。 

口 Map 阶段 

这 些 拷贝 程序 中 的 主 节 点 (master) 分 配 map 任务 和 reduce 任务 , 被 分 配 map 任务 
的 工作 节点 读 取 输 入 片 ， 从 中 解析 出 key/value 对 ， 由 用 户 自 定义 的 Map 函数 处 理 
key/value 对 ， 产 生 中 间 key/value 对 。 

口 Reduce 阶段 

Reduce 函数 将 传 来 的 中 间 key/value 对 合并 ， 并 输出 R 个 文件 。 

2. 视频 并 行 处 理 模 型 

视频 处 理 算法 可 以 分 为 若干 不 同 模块 ,通过 对 数据 的 管理 和 传递 ， 共 同 完成 处 理 任 
务 ， 如 视频 图 像 增强 、 感 兴趣 区 域 提 取 、 目 标识 别 、 目 标 跟 踪 等 。 这 种 模块 称 为 算 子 ， 
单个 算 子 的 输入 数据 可 能 是 单 帧 图 像 或 数 帧 图 像 ， 也 可 能 是 其 他 算 子 的 输出 数据 。 分 布 
式 集群 上 处 理 的 一 个 任务 由 算 子 和 其 输入 数据 构成 , 利用 算 子 编号 和 输入 算 子 最 后 一 帧 
的 帧 编号 唯一 确定 该 任务 ， 标 记 为 Task(operatorID,frameID)。 算 子 之 间 存 在 输入 输出 关 
系 , 表示 算 子 之 间 存 在 连接 。 第 N 帧 的 ol 算 子 可 能 需要 前 后 几 帧 02 算 子 的 输出 作为 输 
入 ， 如 通过 帧 差 法 提取 运动 目标 ， 这 种 情况 标记 为 

Task(o2,N-d):Task(o2,N) 一 Task(oLN) 


Task (02,N 一 d) 到 Task (02,N) 称 为 Task(O1,N) 的 输入 任务 ，d 称 为 连接 的 深度 ， 
反映 后 续 算 子 对 前 续 算 子 历史 信息 的 追溯 深度 。 
算 子 之 间 的 连接 关系 描述 为 : 
ol 一 02 ，depth=d 
海量 视频 管理 通常 需要 处 理 较 长 的 历史 信息 ， 在 这 种 情况 下 ，d 趋向 于 无 穷 大 。 常 
用 统计 算 子 内 置 缓存 用 于 记录 历史 信息 ， 可 以 等 效 看 做 该 算 子 向 自身 输出 处 理 结果 ， 被 
称 为 岩 套 算 子 。 任 务 和 算 子 的 依存 关系 如 图 3.9 所 示 。 
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Task(ol,N) Task(02,N) 
Task(ol,N-1) 
Task(ol,N-d) 

a 


Depth=d 
Operator(ol) Operator(02) 


图 3.9 任务 与 算 子 关系 图 
视频 处 理 算法 可 以 由 算 子 和 算 子 之 间 的 连接 关系 来 表示 ， 对 于 非 嵌 套 算 子 ol， 第 
N+1 帧 的 任务 Task(o1,N+1) 不 必 等 到 Task(o1,N) 结 束 ， 而 是 只 要 其 输入 任务 结束 就 可 以 
和 Task(o1,N) 并 行 处 理 ， 其 帧 率 取决 于 其 输入 算 子 的 帧 率 。 如 果 整 个 视频 算法 全 部 由 非 
嵌 套 算 子 构成 ,并 且 有 足够 多 的 并 行 主机 分 别 用 于 计算 ， 其 处 理 速率 取决 于 输入 视频 的 
帧 率 ， 可 实现 实时 处 理 。 从 某 一 帧 图 像 输入 ， 经 过 多 个 算 子 串 行 连接 处 理 将 存在 一 定 的 
延迟 。 任 务 并 行 处 理 的 时 序 如 图 3.10 所 示 。 


Depth=1 
Operator(oD) C—Overatoreo) 


Task(ol,N-1) 


Task(o1,N-2) 


图 3.10 任务 处 理 时 序 
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对 于 殿 套 算 子 ， 由 于 其 需要 自身 的 处 理 结果 作为 输入 ， 分 布 式 处 理 并 不 能 提高 该 环 


节 的 效率 ， 


因此 柑 套 算 子 的 单 帧 处 理 时 间 构 成 分 布 式 视频 处 理 模 型 的 瓶颈 ， 算 法 实现 时 


需要 优化 算 子 结构 ， 尽 量 减少 代 套 算 子 。 通 常 ， 可 利用 嵌 套 算 子 进行 简单 统计 运算 后 作 
为 整个 系统 最 后 的 输出 ， 计 算 量 较 小 ， 对 系统 性 能 影响 不 大 。 

在 分 布 式 计算 模型 中 ， 非 嵌 套 算 子 相当 于 MapReduce 模型 的 Map 函数 ， 算 子 号 和 
帧 号 构成 其 键 值 ， 由 集群 内 的 主机 并 行 处 理 。 霸 套 算 子 相 当 于 Reduce 函数 ， 综 合 非 由 
套 算 子 的 处 理 结果 ， 生 成 系统 最 终 输出 。 分 布 式 计算 集群 的 层次 结构 如 图 3.11 所 示 。 


Master 


管理 层 (控制 主机 ) 
工作 层 
Worker Worker 
a (工作 主机 》 
数据 层 口 任务 
@ 任务 完成 
Data Server 人 输入 数据 
(数据 服务 器 ) V 输出 数据 


图 3.11 分 布 式 计算 群 结构 


管理 层 为 Master 主机 ，Master 分 析 算 子 之 间 的 连接 关系 ， 合 理 生成 计算 任务 ， 并 
按 顺 序 发 送 给 对 应 的 工作 主机 处 理 ， 同 时 还 要 兼顾 容错 和 负载 均衡 处 理 。 工 作 层 包含 多 


台 Worker 


完成 后 将 


主机 ， 承 担 实 际 的 计算 任务 。Worker 主机 接收 Master 分 配 的 计算 任务 ， 处 理 
FP 间 结果 发 给 数据 层 。 数 据 层 主要 由 DataServer 服务 器 构成 ， 其 作用 是 为 工作 


层 主 机 提供 数据 交换 处 理 。 中 间 数 据 以 键 值 对 的 形式 被 存储 在 服务 器 端 。 

视频 数据 的 分 布 式 处 理 同样 基于 任务 实现 。 任 务 对 应 其 关联 的 算 子 号 和 帧 号 ， 该 对 
应 关系 具有 唯一 性 。 Worker 主机 执行 相关 计算 任务 ， 将 处 理 结果 或 中 间 数 据 发 送 到 
DataServer 缓存 , 算法 实际 执行 流程 由 算 子 间 的 连接 关系 决定 。 Worker 每 完成 一 个 任务 ， 
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便 发 送 一 个 对 应 的 通知 消息 给 Master。Master 检查 该 任务 与 其 他 任务 的 关系 ， 并 将 尚未 
处 理 的 后 续 任 务 加 入 排队 列表 , 进一步 地 , Master 将 等 待 列表 中 全 部 前 置 任务 已 经 完成 ， 
即 输入 数据 已 经 处 理 完毕 的 任务 移 至 发 送 队 列 ， 等 待 时 机 发 送 给 目的 Worker 处 理 ， 如 
图 3.12 所 示 。 


Master Worker 


图 3.12 ”分布 式 处 理 集群 的 任务 处 理 流程 


基于 MapReduce 模型 的 分 布 式 视频 管理 平台 从 嵌 套 算 子 和 非 嵌 套 算 子 的 角度 分 解 
视频 处 理 算 法 ， 属 于 时 域 分 解 ， 以 帧 为 最 小 单位 在 集群 内 分 配 计 算 负 载 ， 实 现 分 布 式 视 
频 分 析 。 最 后 ， 对 于 密集 型 任务 ,平台 处 理 能 力 随 集群 内 节点 的 计算 能 力 线性 增长 ， 对 
现 阶段 常用 的 视频 处 理 算法 进行 优化 分 割 后 , 可 基于 该 分 布 式 视频 处 理 平台 实现 实时 处 
理 。 


3.4 博世 视频 管理 系统 


博世 视频 管理 系统 (Bosch Video Management System ) 是 一 款 企 业 级 视频 安防 解决 
方案 ， 可 以 在 任何 IP 网 络 之 间 提 供 无 颖 的 数字 视频 、 音 频 及 数据 管理 。 可 以 与 相关 视 
频 监控 产品 配合 使 用 ， 组 成 完整 的 视频 安防 管理 系统 ， 如 图 3.13 所 示 。 
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图 3.13 ”博世 视频 管理 系统 
1. 博世 视频 管理 系统 的 功能 


博世 视频 管理 系统 提供 分 布 式 网 络 视频 解决 方案 , 使 用 户 无 须 安 装 专用 的 网 络 录像 
机 (NVR)， 支 持 基 于 iSCSI 技术 的 存储 系统 和 卫 视频 设备 ， 引 入 存储 虚拟 层 的 概念 ， 
可 以 像 管理 单个 “虚拟 ”公用 存储 池 一 样 ， 管 理 整个 系统 中 的 所 有 磁盘 阵列 ， 实 现存 储 
空间 的 智能 分 配 。 

用 户 无 须 安装 相关 的 服务 器 硬件 、 操 作 系统 、 防 病毒 软件 以 及 相关 补丁 ， 安 装 、 操 
作 和 维护 非常 简单 ， 降 低 了 管理 成 本 。 


2. 博世 视频 管理 系统 的 特点 


口 基于 客户 端 /服务 器 的 企业 级 IP 视频 管理 系统 ; 

口 在 系统 范围 内 进行 用 户 管理 、 报 警 处 理 、 状 态 监视 ; 
口 全 面 的 虚拟 答 阵 功能 ， 与 原 有 模拟 系统 无 终 融 合 ; 

口 借助 报警 优先 级 和 可 选 的 用 户 组 分 发 功能 处 理 报警 ; 
口 通过 先进 的 用 户 界面 概念 实现 高 效 操作 ; 

口 与 标准 计算 机 服务 器 、 工 作 站 和 存储 设备 兼容 。 


3.5 微 博 视频 管理 系统 


微 博 视频 管理 系统 用 于 在 互联 网 上 检索 与 某 段 视频 相似 的 视频 在 微 博 上 的 传播 情 
况 ， 支 持 视 频 的 模糊 搜索 功能 ， 在 视频 进行 格式 、 帧 率 、 清 晰 度 、 切 分 组 合 、LOGO 添 
加 等 变换 后 仍 能 准确 地 进行 检索 。 

微 博 视频 管理 系统 基于 先进 的 分 布 式 云 计算 架构 ， 结 合 高 性 能 的 视频 采集 、 解 码 、 
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图 文 提取 与 比 对 技术 , 实现 对 微 博 中 传播 视频 的 快速 检索 和 分 析 , 其 结构 如 图 3.14 所 示 。 


报表 ”数据 库 
服务 器 


图 3.14” 微 博 视 频 管理 系统 

1. 微 博 视频 管理 系统 的 功能 

口 视频 内 容 监 测 

用 户 提 交 原 始 视频 ， 系 统 检 索 出 微 博 中 与 此 视频 相关 的 全 部 视频 。 

口 热点 事件 追踪 

把 一 批 视 频 定 义 为 一 个 事件 集合 ， 系 统 检 索 该 事件 的 所 有 相关 视频 ， 分 析 该 事件 的 
传播 轨迹 、 事 件 趋势 、 影 响 范围 。 

口 视频 聚合 

通过 语义 分 析 和 图 文 对 比 相 结合 ， 实 现 视 频 内 容 的 自动 聚合 与 分 类 。 

口 重点 账号 监控 

对 微 博 的 重点 账号 进行 全 程 监控 ， 对 重点 人 物 的 活跃 度 、 倾 向 性 、 威 胁 度 进行 全 方 
位 分 析 和 监控 。 

2. 微 博 视 频 管 理 系统 的 特点 

口 海量 视频 处 理 

〇 基于 Hadoop 的 云 计算 架构 ; 


\ 


哪 
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日 支持 PB 级 视频 数据 的 存储 与 分 析 。 
口 视频 分 析 引擎 
日 基于 人 眼 视觉 感知 模型 的 视频 图 像 处 理 技术 ; 
〇 抗 干扰 能 力 强 ， 在 视频 进行 各 类 变化 后 仍 能 有 效 识 别 ; 
Q 〇 单 台 视频 处 理 引擎 大 于 200GB/h; 
O 〇 视频 搜索 时 间 小 于 5 秒 。 


3.6 VOD 视频 点 播 及 管理 系统 


VOD 系统 通过 网 络 向 分 布 在 各 处 的 终端 设备 实时 、 定 时 触发 等 多 种 形式 ， 发 布 深 
动 通知 和 视频 信息 等 内 容 。 如 图 3.15 所 示 ， 该 系统 由 流 媒体 服务 器 、 管 理 服务 器 、 播 放 
端 组 成 ， 采 用 B/S 管理 模式 ， 实 现 广 域 网 、 局 域 网 的 整合 控制 ， 可 支持 多 种 终端 接 入 ， 
支持 高 清 节目 播放 ， 应 用 各 种 封装 技术 提供 完善 接口 ， 进 行 方便 、 快 捷 的 定制 开发 。 


LED 大 屏 大 屏 拼接 墙 。 ”等 高 子 电视 ”广告 机 显示 屏 触摸 查询 机 


图 3.15 VOD 系统 
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1. VOD 系统 的 功能 
口 业务 功能 
支持 高 清 视频 点 播 ， 提 供 良 好 的 视听 感受 ; 采用 导演 、 演 员 、 发 行 年 代 、 类 型 等 多 


种 筛选 条 件 ， 为 用 户 查 询 节目 时 提供 方便 、 简 单 和 快捷 的 操作 方式 。 


日 


下 


口 管理 功能 

支持 宣传 资料 管理 、 节 目 管理 、 信 息 管 理 、 配 置 管理 、 系 统 设置 、 播 放 监控 、 操 作 
志 查 询 等 功能 。 

2. VOD 系统 的 特点 

口 开放 的 业务 平台 

采用 开放 理念 提供 标准 的 外 部 接口 ， 支 持 内 容 、 信 息 、 服 务 等 提供 商 接 入 ， 支 持 广 


、 信 息 等 平台 接 入 ， 为 系统 建立 统一 资源 平台 。 
口 分 级 管理 
分 析 产 业 链 中 各 个 角色 的 需求 ， 全 面体 现 角色 管理 功能 。 
口 灵活 的 部 署 方案 


支持 集中 式 、 分 布 式 、 混 合式 部 署 方案 ， 满 足 各 种 规模 需求 。 
口 采用 Linux 操作 系统 
Linux 系统 具有 极 高 的 安全 性 和 稳定 性 。 


海量 视频 分 析 是 面向 海量 视频 的 深度 应 用 ， 采 用 计算 机 视觉 、 视 频 图 像 处 理 、 人 工 
智能 、 机 器 学 习 、 应 用 数学 等 学 科 的 理论 和 方法 , 对 海量 视频 进行 格式 解析 、 特征 提取 、 
数据 管理 、 快 速 分 类 等 。 

本 章 针对 海量 视频 分 析 需 求 ， 重 点 介绍 常用 理论 和 基本 方法 ， 包 括 Harris 描述 子 、 
SIFT 描述 子 、K-Means 方法 、K 近邻 法 、SVM 方法 、BP 网 络 、 多 感知 器 模型 、CNN、 
AdaBoost 方法 、 模 拟 退 火 和 遗传 方法 。 


4.1 Harris 描述 子 


角 点 特征 能 够 减少 用 于 计算 的 数据 量 , 同时 不 损失 用 于 描述 主要 特征 的 其 他 重要 信 
息 。 学 者 Chris Harris 于 1988 年 提出 了 著名 的 Harris 算 子 ， 该 算 子 是 一 种 有 效 的 角 点 特 
征 提取 方法 。 

1. 基本 原理 


Harris 算 子 继承 Moravec 算 子 的 思想 精髓 ， 并 做 出 重要 改进 。Harris 算 子 可 从 连续 
角度 进行 推导 ， 考 虑 每 个 方向 上 的 自 相关 性 ， 使 用 圆 形 模板 窗 代替 Moravec 算 子 的 方形 
窗 。 

Harris 算 子 取 以 目标 像素 点 为 中 心 的 一 个 小 窗口 ， 计 算 窗口 沿 任何 方向 移动 后 的 灰 
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度 变化 ， 并 用 解析 形式 表达 。 
设 以 像素 点 (x, y) 为 中 心 的 小 窗口 在 x 方向 上 移动 u, y 方 向 上 移动 v，Harris 给 出 灰 
度 变化 度量 的 解析 表达 式 : 


E(u,v)= Dw WUCtu, y+y) 7x, 7)] 


其 中 ，w(x,y) 为 窗口 函数 。 
如 图 4.1 所 示 ，Harris 算 子 采 用 高 斯 函数 作为 窗口 函数 ， 离 中 心 点 越 近 的 像素 具有 
越 大 的 权重 ， 从 而 可 以 减少 噪声 影响 。 


ErCRH /2 


1 
大 二 一 一 
w(x,y) 0 


”DR 


WwW,J)= wec---C--------=-=ccoo” 
图 4.1 高 斯 函数 


Moravec 算 子 只 考虑 每 隔 45° 方 向 ，Harris 算 子 则 通过 Taylor 级 数 展开 可 以 逼近 任 
意 方向 。 
设 了 为 图 像 灰 度 函数 ， 到 为 x 方 向 的 差分 ,万 为 y 方 向 的 差分 。Taylor 展开 为 : 


Txtu,y+v)=1(x,y)+Lu+l,v+O(u,v’) 
因此 可 得 : 
E(uv)=D wx) (rt y+y) -71(x,»)] 
=D wx) [uth vt+o(e, 中 
略 去 二 次 以 上 高 阶 无 穷 小 项 ， 有 : 
E,= Dw (LY +v (0, +21,]= Aw +2Cuv+ Bv? 
将 ,转化 为 二 次 型 ， 有 : 


u 
v 


Bs =[u ul | 
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4 为 实 对 称 和 矩阵 : 


通过 对 角 化 处 理 得 到 : 


0 
sr 
其 中 ，R 为 旋转 因子 ， 对 角 化 处 理 后 并 不 改变 以 u、v 为 坐标 参数 的 空间 曲面 的 形 
状 ， 其 特征 值 反 映 了 两 个 主轴 方向 的 图 像 表 面 曲率 。 
矩阵 M 的 两 个 特征 向 量 为 和 加 ， 与 矩阵 M 的 主 曲率 成 正比 。 如 图 4.2 所 示 ，Harris 
算 子 利用 丸和 加 表征 变化 最 快 和 最 慢 的 两 个 方向 ， 若 两 个 特征 向 量 都 很 大 ， 则 对 应 角 
点 ; 若 生 和 妨 一 大 一 小 则 对 应 边缘 ; 若 入 和 如 都 小 则 对 应 变化 缓慢 的 平坦 区 域 。 


图 4.2 用 矩阵 W 的 特征 向 量 分 类 图 像 像素 点 


求解 特征 向 量 的 计算 量 比较 多 。 由 于 两 个 特征 值 的 和 对 应 于 矩阵 M 的 迹 ， 它 们 的 
积 等 于 矩阵 M 的 行列 式 ， 所 以 常用 如 下 的 角 点 响应 函数 “CRF) 来 判定 角 点 。 


R=detM -k(traceM) 


其 中 ，det M 表 示 M 的 行列 式 ，trace M 表 示 M 的 迹 ,，k 常 取 0.04~0.06。 当 目标 像 
素 点 的 CRF 值 大 于 给 定 阀 值 时 ， 该 像素 点 即 为 角 点 。 
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2. 实现 方法 

Harris 算 子 求 取 的 流程 如 下 。 

ZI07 对 每 个 像素 点 计算 相关 和 矩阵 M; 
A=w(x,y) 7 


B= w(x,y) 8 
C=D=w(x,y)®(17,) 
(ea 
M= 
公克 
C202 计算 每 个 像素 点 的 Harris 角 点 响应 函数 ， 
R=(AB-CD) -Kk(A4+B) 


i 


G03 在 wxw 范围 内 寻找 极 大 值 点 ， 若 Harris 角 点 响应 大 于 阅 值 ， 则 视 为 角 点 。 

3. 算法 特点 

Harris 算 子 计算 简单 ， 只 用 到 灰 度 的 一 阶 差 分 以 及 滤波 。Harris 算 子 对 图 像 中 的 每 
个 点 都 计算 其 兴趣 值 ， 然 后 结合 邻 域 选择 最 优点 。 在 纹理 信息 丰富 的 区 域 ，Harris 算 子 
可 以 提取 出 大 量 有 用 的 特征 点 ， 反 之 则 特征 点 较 少 

如 图 4.3 所 示 ，Harris 算 子 对 图 像 平移 、 旋 转 、 灰 度 变 换 、 噪 声 干扰 和 视角 变化 有 
较 强 的 适应 性 ， 是 一 种 比较 稳定 的 点 特征 提取 算 子 。 


图 4.3 Harris 算 子 对 简单 图 像 的 响应 


如 图 4.4 所 示 ，Harris 算 子 对 尺度 很 敏感 ， 在 某 个 尺度 下 是 角 点 ， 在 男 一 个 尺度 下 
可 能 就 不 是 。 
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图 4.4 Harris 算 子 对 尺度 的 敏感 性 


4.2 SIFT 描述 子 


SIFT 描述 子 〈Scale Invariant Feature Transform， 尺 度 不 变 特 征 变 换 ) 由 加 拿 大 哥 伦 
比 亚 大 学 (University of British Columbia，Canada) 的 David 在 1999 年 的 ICCYV 会 议 上 
提出 。 它 是 一 种 基于 尺度 空间 的 ， 对 图 像 平移 、 旋 转 、 缩 放 以 及 一 定 视角 和 光照 变化 等 
保持 不 变性 的 局 部 特征 描述 子 。 

1. 尺度 空间 的 生成 

尺度 空间 理论 模拟 图 像 数据 的 多 尺度 特征 ， 为 了 使 特征 具有 尺度 不 变性 ， 特 征 点 的 
检测 在 多 尺度 空间 完成 。 

高 斯 卷 积 核 是 实现 尺度 变换 的 常用 变换 核 ， 并 且 是 唯一 的 线性 核 。 二 维 图 像 的 尺度 
空间 定义 为 : 

L(xX,y,0)= G(x,y,0)*1(x,y) 

其 中 ，G(x,y,0) 是 尺度 可 变 高 斯 函数 : 


2 2 
e202 


2 


1 
SOs 2X0 
其 中 ， 符 号 “*” 表 示 卷 积 ，(x, y) 代 表 图 像 的 像素 坐标 ，o 是 尺度 空间 因子 ，o 越 小 
表示 图 像 平 滑 越 少 ， 相 应 尺度 越 小 。 大 尺度 对 应 于 图 像 的 整体 特征 ， 小 尺度 对 应 于 图 像 
的 局 部 细节 特征 。 
如 图 4.5 所 示 ， 两 组 高 斯 尺度 空间 图 像 表 示 金 字 塔 的 构建 过 程 ， 其 中 第 二 组 图 像 通 
过 对 第 一 组 图 像 进行 下 采样 得 到 。 
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| 驴 s 


Octave 1 Octave2 
图 4.5 金字 塔 的 构建 示例 
基于 高 斯 差分 尺度 空间 (DoG)， 利 用 不 同 尺度 的 高 斯 差分 核 与 图 像 卷 积 处 理 ， 可 
以 有 效 地 在 尺度 空间 进行 稳定 的 关键 点 检测 。 


D(x,y,0)= (G(x,y,ko)— G(x,y,0))*1(x,y) 
=L(x,y,ko)—L(x,y,0) 


实际 处 理 中 用 差分 近似 代替 微分 : 


_66G G(xy,ko)-G(x,y,0) 
O00 Ka 一 


oOoV’G 


则 有 : 


G(x,y,ko) -G(x,y,0) ~ (k-1)oV’G 


其 中 ，k-1 是 常数 ， 不 影响 极 值 点 位 置 的 求 取 。 

Lindeberg 与 1994 年 发 现 高 斯 差分 算 子 (Difference of Gaussian，DoG ) 与 尺度 归 一 
化 的 高 斯 拉 普 拉 斯 算 子 czV2G 非常 相似 ， 如 图 4.6 所 示 ， 图 中 实 线 表 示 高 斯 差分 算 子 
(DoG)， 虚 线 表示 高 斯 拉 普 拉 斯 算 子 (LoG)。 而 高 斯 差分 函数 计算 简单 ， 效 率 高 ， 可 
作为 尺度 归 一 化 的 高 斯 拉 普 拉 斯 算 子 (Laplacian of Gassian，LoG ) 的 一 种 近似 表示 。 

2002 年 ，Mikolajczyk 指出 ， 与 梯度 、Hessian 或 Harris 特征 提取 函数 比较 ，o?V?G 
的 极 大 值 和 极 小 值 能 够 产生 最 稳定 的 图 像 特征 。 
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人 EXGi 采用 不 同 
组 图 像 作为 金字 塔 图 像 的 第 一 层 . 


图 4.6 LoG 和 DoG 的 比较 
图 4.7 展示 了 构造 D(x,y,o) 的 一 种 有 效 方法 ， 具 体 介绍 如 下 : 


C2T02 对 第 一 层 图 像 的 2 倍 尺度 图 


尺度 的 高 斯 核对 图 


图 


像 进行 卷 积 ， 得 到 


像 的 第 二 层 的 第 一 幅 图 
得 金字 塔 图 像 


第 二 层 的 一 组 图 像 。 


像 以 2 倍 像素 距离 进行 下 采 
因子 的 高 斯 核对 该 


样 , 得 到 金字 塔 图 


司 尺度 空间 ,将 该 


像 进 行 卷 积 ， 获 


ET03 与 02 类 似 , 以 金字 塔 图 像 中 第 二 层 中 的 2 倍 尺度 图 像 再 次 以 2 倍 像素 


进行 下 采样 ， 得 到 金字 塔 图 
像 进行 卷 和 


= [= 
只 ， 获 得 金 了 


像 第 三 层 的 第 一 幅 图像 ， 采 用 不 同 尺 度 


子 的 高 斯 核对 该 图 


以 此 类 推 , 获得 金字 塔 图像 每 一 层 的 一 组 图 像 ， 如 图 4.7(a) 所 示 。 将 4.7(a) 每 一 层 的 
邻 高 斯 图 像 相 减 ， 得 到 高 斯 差分 图 像 ， 如 图 4.7(b) 所 示 。 图 4.7(c) 中 右 列 显示 每 组 的 高 
斯 差分 图 像 。 
最 后 ， 以 高 斯 差分 函数 近似 实现 归 一 化 的 高 斯 - 拉 普 拉 斯 函数 ， 从 高 斯 差分 金字 塔 


分 层 结 构 


提取 图 像 极 值 点 作为 候选 特征 点 。 将 DoG 尺度 空间 中 每 个 点 与 相 邻 尺度 和 


位 置 的 点 逐一 比较 ， 检 测 到 的 局 部 极 值 位 置 即 为 特征 点 所 处 位 置 和 对 应 尺度 。 
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训 | 洲 汝 刀 


高 斯 差分 图 像 


(c) 
图 4.7 高 斯 金字 塔 中 相 邻 尺度 的 两 幅 高 斯 图 像 相 减 得 到 DoG 图 像 
2. 空间 极 值 点 检测 
针对 每 一 采样 点 , 均 要 比较 其 与 所 有 和 邻 域 点 的 差别 ,判断 其 是 否 为 尺度 空间 的 极 值 
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点 。 如 图 4.8 所 示 ， 将 标注 为 “X” 的 检测 点 和 它 同 尺度 的 8 邻 域 点 、 上 下 相 邻 尺度 分 
别 对 应 的 18 个 点 共 26 个 点 比较 ， 以 确保 检测 到 在 原始 图 像 空间 和 变 尺 度 空 间 都 满足 条 
件 的 极 值 点 。 


图 4.8 DoG 尺度 空间 中 局 部 极 值 检测 

因为 需要 同 相 邻 尺度 进行 比较 ,在 一 组 高 斯 差分 图 像 中 ， 只 能 检测 到 两 个 尺度 的 极 
值 点 , 而 其 他 尺度 的 极 值 点 则 在 图 像 金 字 塔 中 上 一 层 高 斯 差分 图 像 进行 检测 。 以 此 类 推 ， 
最 终 实 现在 图 像 金字 塔 中 不 同 层 高 斯 差分 图 像 中 进行 不 同 尺度 的 极 值 点 检测 。 

因为 某 些 极 值 点 响应 较 弱 ， 而 且 DoG 算 子 会 产生 较 强 的 边缘 响应 ， 上 述 处 理 得 到 
的 极 值 点 并 不 都 是 稳定 的 特征 点 。 

为 考察 点 的 特征 性 ， 可 以 获取 对 应 点 处 的 Hessian 矩阵 ， 主 曲率 通过 一 个 2x2 的 
Hessian 和 窍 阵 瓦 求 出 : 


五 的 特征 值 a 和 BB 代 表 x 和 > 方向 的 梯度 。 
Tr(H)=Ds+D, =a+p 
Det(H)=D.D, -(D,Y =ap 
其 中 ,TA( 怒 表示 和 矩阵 五 对 角 线 元 素 之 和 ，Deit( 友 表示 矩阵 五 的 行列 式 。 假设 a 是 较 
大 的 特征 值 ， 而 B 是 较 小 的 特征 值 ， 令 a=rB， 则 


TH) (a+p)y _CB+P)Y C+) 
Det(H) ap rp’ r 


在 实际 处 理 中 ， 可 由 采样 点 的 相 邻 差 估 计 导 数 。 
D 的 主 曲 率 和 五 的 特征 值 成 正比 ， 假 设 a 为 最 大 特征 值 ，P 为 最 小 特征 值 ， 则 当 两 


66 视觉 大 数据 基础 与 应 用 


个 特征 值 相等 时 (r+l)r 的 值 最 小 ， 随 着 7 的 增 大 而 增 大 。(r+1)Yr 越 大 ， 说 明 两 个 特征 
值 的 比值 越 大 ， 即 在 某 一 个 方向 的 梯度 值 越 大 ， 而 在 男 一 个 方向 的 梯度 值 越 小 ， 即 边缘 
的 情况 。 为 了 剔除 边缘 响应 点 ， 需 要 让 该 比值 小 于 一 定 的 阔 值 。 为 了 检测 主 曲率 是 否 小 
于 某 阔 值 ”， 只 需 检测 : 


Tr(HY 要 (r+ 
Det(H) 


一 般 取 一 10。 
3. 关键 点 方向 分 配 


为 保证 描述 子 的 旋转 不 变性 ， 需 要 依据 图 像 的 局 部 特征 给 每 个 关键 点 分 配方 向 。 可 
以 计算 梯度 模 值 和 方向 如 下 : 


m(xw p= VLxth LL + y+D) -Ly -1D)) 
O(x,y)=tan (L(x,y+D) -L(x,y-1)/Lr+l,y) -L(x -1,y)) 


其 中 , 工 为 每 个 关键 点 各 自 的 尺度 。 
完成 上 述 计算 后 ， 在 关键 点 的 邻 域 窗口 内 采样 ， 并 统计 直方 图 以 获取 邻 域 像 素 的 梯 
度 方 向 。 梯 度 直 方 图 的 范围 为 0"~-360"， 其 中 每 10° 为 一 个 方向 ， 共 36 个 方向 。 
计算 方向 直方 图 时 ， 需 用 参数 co 对 方向 直方 图 进行 加 权 , 其 中 c 的 取 值 为 关键 点 所 在 
尺度 的 1.5 倍 高 斯 权重 。 如 图 4.9 中 的 圆 形 所 示 ， 中 心 处 的 颜色 较 浓 ， 表 示 权 值 最 大 ; 
边缘 处 颜色 浅 ， 表 示 权 值 较 小 。 图 中 给 出 了 8 个 方向 的 方向 直方 图 示例 。 


图 4.9 关键 点 方向 分 配 


关键 点 方向 可 选用 方向 直方 图 的 峰值 ， 即 该 关键 点 邻 域 梯度 的 主 方向 。 为 增强 匹配 
的 鲁 棒 性 ,该 关键 点 选择 峰值 大 于 主 方向 峰值 80% 的 方向 作为 辅 方向 。 对 于 同一 梯度 值 
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具有 多 个 峰值 的 关键 点 ， 在 相同 位 置 和 尺度 将 会 创建 具有 不 同方 向 的 多 个 关键 点 。 为 提 
高 关键 点 匹配 的 稳定 性 ， 通 常 仅 有 15% 的 关键 点 被 赋予 多 个 方向 。 


4. 特征 点 描述 子 的 生成 


每 个 关键 点 包含 3 类 特性 : 位 置 、 尺 度 、 方 向 。 针 对 每 个 关键 点 ， 应 对 其 建立 可 表 
达 上 述 特性 的 描述 子 ， 而 且 该 描述 子 应 具有 和 鲁 棒 性 ， 不 随 光 照 、 视 角 等 外 界 环境 的 改变 
而 变化 。 此 外 ， 该 描述 子 还 应 有 较 高 的 独特 性 ， 以 提高 特征 点 正确 的 概率 。 

首先 ， 旋 转 坐 标 轴 ， 使 其 与 关键 点 方向 一 致 ， 以 确保 旋转 不 变性 。 


位 置 ， 圆 圈 表 示 高 斯 加 权 的 范围 ， 像 素 越 靠近 关键 点 ， 其 梯度 方向 信息 的 作用 越 大 。 每 
个 小 格 代表 关键 点 邻 域 所 在 尺度 空间 的 一 个 像素 ， 箭 头 方向 代表 该 像素 的 梯度 方向 ， 箭 
头 长 度 代 表 梯 度 大 小 。 

然后 , 在 每 个 4x4 的 小 块 上 计算 8 个 方向 的 梯度 方向 直方 图 ， 描 绘 每 个 梯度 方向 的 
累加 值 ， 形 成 一 个 种 子 点 ， 如 图 4.10 右 图 所 示 。 图 中 每 个 关键 点 由 4 个 种 子 点 组 成 ， 每 
个 种 子 点 有 8 个 方向 的 信息 。 基 于 邻 域 方向 信息 联合 可 以 增强 算法 抗 噪声 能 力 ， 同 时 对 
于 含有 定位 误差 的 特征 匹配 具有 较 好 的 容错 性 。 


| FT 站 | 
-了 4 
创下 肥 巴 可 


邻 域 梯度 方向 关键 点 特征 向 量 
图 4.10 ”由 关键 点 邻 域 梯度 信息 生成 特征 向 量 
最 后 ， 为 了 增强 关键 点 匹配 的 鲁 棒 性 ， 通 常 对 每 个 关键 点 使 用 4x4 共 16 个 种 子 点 
来 描述 , 每 一 个 关键 点 可 生成 128 维 SIFT 特征 向 量 。 通过 上 述 处 理 提取 到 的 SIFT 特征 
向 量 已 经 去 除 尺度 、 旋 转 等 几何 变形 因素 的 影响 ， 青 继续 将 特征 向 量 的 长 度 归 一 化 ， 可 
进一步 去 除 光 照 变化 的 影响 。 
5. 特征 点 匹配 
将 关键 点 特征 向 量 的 欧式 距离 作为 两 幅 图 像 中 关键 点 的 相似 度 判定 依据 。 取 图 像 1 
中 的 某 个 关键 点 ， 并 找 出 图 像 2 中 与 其 欧式 距离 最 近 的 前 两 个 关键 点 ， 如 果 最 近 的 距离 
除 以 次 近 的 距离 小 于 某 个 比例 阔 值 ， 则 接受 这 一 对 匹配 点 。 降 低 这 个 比例 阔 值 ，SIFT 
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匹配 点 数目 会 减少 ， 但 剩余 匹配 点 对 更 加 稳定 。 

SIFT 描述 子 表 征 图 像 的 局 部 特征 ， 可 适应 平移 、 旋 转 、 尺 度 缩放 、 亮 度 的 变化 ， 
并 具有 非常 好 的 旋转 不 变性 ， 当 旋转 角度 从 0° 到 180? 时 ， 描 述 子 可 保持 80% 以 上 的 重 
复 度 。 其 对 光照 变化 、3D 视角 变化 、 仿 射 变换 、 品 声 保持 一 定 程度 的 稳定 性 ， 具 有 较 
强 的 鲁 棒 性 。 

SIFT 描述 子 独特 性 好 ， 信 息 量 丰富 ， 用 于 在 海量 特征 数据 库 中 进行 匹配 时 ， 一 般 
能 获得 较 高 的 正确 率 。 


4.3 KK 均值 聚 类 方法 


聚 类 是 无 监督 学 习 的 一 种 方法 ， 是 常用 的 数据 分 析 技 术 。 无 监督 机 器 学 习 针对 没有 
标签 的 情况 , 对 样本 数据 进行 聚 类 分 析 、 关联 性 分 析 等 , 主要 包括 K 均值 聚 类 (K-means 
clustering) 和 关联 分 析 。 

1. 经 典 K 均值 聚 类 

如 图 4.11 所 示 , K 均值 聚 类 是 经 典 的 聚 类 方法 之 一 将 n 个 观察 对 象 分 类 到 k 个 聚 
类 ， 每 个 观察 对 象 都 被 分 到 与 均值 最 接近 的 聚 类 之 中 。 


图 4.11 KK 均值 聚 类 


假如 图 4.11 中 是 样本 数据 ， 每 个 样本 都 没有 类 别 ， 明 显 的 有 4 堆 数据 ,用 什么 方法 
能 分 成 4 类 呢 ? 玉 均 值 聚 类 可 以 解决 该 问题 。 
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对 象 x 隶属 于 集合 A 的 程度 可 用 隶属 度 函 数 表 示 ， 记 做 hA(x)， 其 自 变量 包括 所 有 
可 能 属于 集合 A 的 对 象 ， 值 域 为 0<hA(W)1。phA(x)=1 表示 并 完全 隶属 于 集合 A。 针 
对 空间 X={x} 上 的 素 属 度 函数 定义 一 个 模糊 集合 A, 称 作 在 论 域 X={x} 上 的 模糊 子 集 4 。 
对 于 有 限 数量 的 对 象 I，x2，.……， xn， 模 糊 集合 4 可 以 表示 为 : 


4 ={(£4(%),%) 1x eX} 


在 聚 类 问题 中 ,可 将 聚 类 生成 的 簇 看 作 模 糊 集合 ， 每 个 样本 点 隶属 于 模糊 集合 的 隶 
属 度 就 是 [0，1] 区 间 里 的 值 。 
把 n 个 向 量 xj (=1,2,…*,n) 分 为 c 个 组 Gi (二 1,2,…,c)， 计 算 每 组 的 聚 类 中 心 ， 使 距 
离 最 小 。 
当 以 欧 几 里 德 距离 作为 组 j 中 向 量 x 与 相应 聚 类 中 心 c 间 的 非 相似 性 度量 时 ,价值 
函数 可 定义 为 : 
T= = 5 Is -oP) 
二 i hmeG 
开 的 值 依赖 于 G; 的 几何 特性 和 ci 的 位 置 。 
假如 通用 距离 函数 dexwc) 代 蔡 组 i 中 的 向 量 xx， 则 相应 的 总 价值 函数 可 表示 为 ; 
/= 六 = 六 (了 du -oe) 
通常 选用 欧 几 里 德 距离 作为 向 量 的 非 相似 性 指标 。 
经 过 划分 后 的 组 通常 用 大 小 为 cxn 的 二 维 隶 属 矩 阵 U 来 定义 。 如 果 第 j 个 数据 点 加 
属于 组 ?， 则 U 中 的 元 素 ww 为 1， 否则 该 元 素 取 0。 一 旦 确定 聚 类 中 心 c， 可 导出 


,，-J1 对 每 个 tx 如 果 | -of < 
” [lo ”其 他 


如 果 ci 是 思 最 近 的 聚 类 中 心 ， 那 么 属于 组 i。 由 于 给 定 的 一 个 数据 只 能 属于 一 个 
组 ， 所 以 隶属 矩阵 U 具有 如 下 性 质 : 


2 Vi=1,:…,n 
Duy ji 
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如 果 固 定 wj， 则 使 了 最 小 的 最 佳 聚 类 中 心 就 是 组 i 中 所 有 向 量 的 均值 : 
1 
|Gi| 是 G; 的 模 值 或 : 
cl > Us 


K 均值 就 是 更 新 质心 、 更 新 每 个 样本 的 所 属 类 别 。 
假设 数据 集 为 xi( 二 1,2,…,n)，K 均值 算法 重复 使 用 下 列 步 又 ， 确 定 聚 类 中 心 c 和 隶 
属 和 矩阵 U: 


CT02 确定 隶属 矩阵 U. 

E703 计算 价值 函数 ./， 如 果 它 小 于 某 个 确定 的 阐 值 ， 或 变化 量 小 于 某 个 闪 值 ， 
可 视 作 稳定 ， 则 迭代 停止 。 

人 4 修正 聚 类 中 心 , 返回 Step2. 


对 于 给 定 的 数据 点 *， 最 近 的 聚 类 中 心 c; 采 用 下 式 修正 : 


Ac =n(x—c,) 
该 修正 公式 嵌入 无 监督 学 习 神 经 元 网 络 的 学 习 法 则 。 
2. 二 分 K 均值 聚 类 
针对 K 均值 聚 类 容易 陷入 局 部 最 小 的 问题 ， 有 学 者 提出 二 分 K 均值 聚 类 算法 ， 首 
先 把 所 有 样本 作为 一 个 簇 ， 然 后 二 分 该 徐 ， 接 着 选择 其 中 一 个 簇 继续 进行 二 分 。 选 择 哪 


一 个 簇 二 分 的 原则 就 是 能 否 使 得 误差 平方 和 (Sum of Squared Error，SSE) 尽 可 能 小 。 
图 4.12 是 玉 均 值 算 法 在 随机 初始 化 不 好 的 情况 下 聚 类 的 效果 。 
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图 4.12 ”随机 初始 化 不 好 的 情况 
采用 二 分 K 均值 聚 类 得 到 的 效果 图 如 图 4.13 所 示 。 


图 4.13 二 分 K 均值 聚 类 的 效果 图 


3. 算法 特点 


K 均值 算 法 简洁 快速 ， 假 设 均 方 误差 是 计算 群 组 分 散 度 的 最 佳 参数 ， 对 于 满足 正 态 
分 布 的 数据 聚 类 效果 很 好 ， 可 应 用 于 机 器 学 习 、 数 据 挖掘 、 模 式 识别 、 图 像 分 析 和 生物 
信息 学 等 。 

K 均值 算法 的 性 能 依赖 于 聚 类 中 心 的 初始 位 置 ， 不 能 确保 收敛 于 最 优 解 ， 对 孤立 点 
敏感 。 为 了 对 其 进行 改善 ， 可 基于 先 验 知识 或 预 处 理 首先 确定 较 好 的 初始 聚 类 中 心 ， 或 
者 每 次 随机 选择 不 同 的 初始 聚 类 中 心 ， 多 次 运行 该 算法 ， 然 后 选择 最 优 结果 。 
虽然 二 分 K 均值 聚 类 算法 改进 了 K 均值 聚 类 算法 的 不 足 ， 但 是 它们 的 共同 的 缺点 
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就 是 必须 事先 确定 K 的 值 ， 不 合适 的 K 可 能 返回 较 差 的 结果 。 对 于 海量 的 现实 数据 ， 
如 何 确定 K 的 值 是 学 术 界 一 直 在 研究 的 问题 ， 常 用 方法 是 层次 聚 类 (Hierarchical 
Clustering)， 或 者 借鉴 LDA 分 析 。 


4.4 K 近邻 法 


机 器 学 习 分 两 大 类 ， 有 监督 学 习 (supervised learning) 和 无 监督 学 习 (unsupervised 
learning)。 有 监督 学 习 又 可 分 两 类 ， 即 分 类 〈classification) 和 回归 (regression )， 分 类 
的 任务 就 是 把 一 个 样本 划 为 某 个 已 知 类 别 ， 每 个 样本 的 类 别 信息 在 训练 时 需要 给 定 ， 比 
如 人 脸 识别 、 行 为 识别 、 目 标 检测 等 都 属于 分 类 。 回 归 的 任务 则 是 预测 一 个 数值 ， 比 如 
给 定 房屋 市 场 的 数据 (面积 、 位 置 等 样本 信息 ) 来 预测 房价 走势 。 而 无 监督 学 习 也 可 以 
成 两 类 ， 即 聚 类 〈clustering) 和 密度 估计 (density estimation )， 聚 类 则 是 把 一 堆 数据 聚 
成 若干 组 ， 没 有 类 别 信息 ; 密度 估计 则 是 估计 一 堆 数据 的 统计 参数 信息 来 描述 数据 ， 比 
如 深度 学 习 的 RBM。 

K 近邻 法 是 有 监督 学 习 方 法 ， 原 理 很 简单 ， 假 设 有 一 堆 分 好 类 的 样本 数据 ， 分 好 类 
表示 每 个 样本 都 对 应 一 个 已 知 类 标签 ， 当 一 个 测试 样本 要 我 们 判断 它 的 类 别 时 ， 就 分 别 
计算 到 每 个 样本 的 距离 ,然后 选取 离 测试 样本 最 近 的 前 K 个 样本 的 标签 累计 投票 , 得 票 
数 最 多 的 那个 标签 就 为 测试 样本 的 标签 。 

图 4.14 中 横 坐 标 表 示 一 部 电影 中 的 打斗 统计 个 数 , 纵 坐 标 表 示 接 吻 次 数 。 对 图 4.14 
中 的 电影 进行 分 类 ， 其 统计 数据 和 类 别 如 图 4.15 所 示 : 

California Man 
He's Not Really into Dudes 

2 


Beautiful Woman 
Kevin Longblade 


Robo Slayer 3000 


number of kisses in the movie 


Amped | 


number of kicks in the movie 


图 4.14 打斗 统计 
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电影 名 称 打斗 次 数 | 接吻 次 数 ”| 电影 类 别 
California Man 党 104 Romance 
He's Not Really into Dudes 2 100 Romance 
Beautiful Woman 1 81 Romance 
Kevin Longblade 101 10 Action 
Robo Slayer 3000 99 5 Action 
Amped|| 98 2 Action 
本 18 90 Unknown 


图 4.15 电影 统计 


从 图 4.15 中 可 以 看 出 有 3 部 电影 的 类 别 是 Romance， 有 3 部 电影 的 类 别 是 Action， 
那么 如 何 判 断 间 号 表示 的 这 部 电影 的 类 别 呢 ? 根据 KNN 原理 ,需要 在 图 4.14 所 示 的 坐 
标 系 中 计算 问号 到 所 有 其 他 电影 之 间 的 距离 。 计 算出 的 欧式 距离 如 图 4.16 所 示 。 

电影 名 称 到 该 电影 的 距离 
California Man 


He's Not Really into Dudes 
Beautiful Woman 


Kevin Longblade 
Robo Slayer 3000 
Amped|| 


图 4.16 距离 计算 
由 于 我 们 的 标签 只 有 两 类 ， 假 设 我 们 选择 K=6/2=3， 由 于 前 3 个 距离 最 近 的 电影 都 
0 那么 问号 表示 的 电影 被 判定 为 Romance。 
近邻 法 精度 高 ， 对 离 群 点 不 敏感 ， 对 数据 不 需要 假设 模型 。 但 是 判定 时 计算 量 太 
大 ， est 


4.5 SVM 方法 


SVM (Support Vector Machine， 支 持 向 量 机 ) 的 理论 基础 是 美国 电报 电话 公司 贝尔 
实验 室 (AT&T Bell Labs., USA) 的 Cortes、Corinna、Vapnik 和 Vladimir N. 于 1995 年 提 
出 的 统计 学 习 理 论 ， 该 理论 方法 对 于 小 样本 、 非 线性 及 高 维 模式 识别 问题 具有 较 明显 的 
优势 ,广泛 应 用 于 函数 拟 合 、 语 音 识别 、 文 本 分 类 、 物 体 识别 等 对 应 论文 为 Support-Vector 


Networks (Machine Learning), 


在 深度 学 习 出 现 之 前 ，SVM 一 直 占据 着 机 器 学 习 老大 哥 的 位 子 。 其 理论 很 优美 ， 
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有 很 多 改进 版 本 ， 比 如 latent-SVM、structural-SVM 等 。 


1. 基本 原理 

如 图 4.17 所 示 ， 对 于 该 数据 集 ，3 个 分 类 器 满足 分 类 要 求 ， 但 是 这 个 只 是 训练 集 ， 
测试 样本 分 布 可 能 会 比较 散 一 些 ， 各 种 可 能 都 有 。 为 了 应 对 复杂 情况 ， 需 要 使 线性 分 类 
器 离 两 个 数据 集 都 尽 可 能 远 ， 因 为 这 样 会 减少 测试 样本 越过 分 类 器 的 风险 ， 提 高 检测 精 
度 ， 因 此 图 4.17(d) 的 分 类 器 最 佳 。 这 种 使 得 数据 集 到 分 类 器 之 间 的 间距 (Margin) 最 大 
化 的 思想 就 是 SVM 的 核心 思想 ， 离 分 类 器 距离 最 近 的 样本 称 为 支持 向 量 。 
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图 4.17 SVM 的 效果 
既然 SVM 的 目标 就 是 为 了 寻找 最 大 边 距 ， 那 么 如 何 寻 找 支 持 向 量 ? 如 何 实现 呢 ? 
假设 图 4.18 中 的 直线 表示 一 个 超 面 , 为 了 方便 观看 显示 成 一 维 直 线 , 特征 都 是 超 面 
维度 加 一 维度 的 ， 特 征 是 二 维 ， 而 分 类 器 是 一 维 的。 如 果 特 征 是 三 维 的， 分 类 器 就 是 一 
个 平面 。 
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图 4.18 SVM 原理 


假设 超 面 的 解析 式 为 : 
W'X+b=0 


超 面 示意 图 如 图 4.19 所 示 。 
©xX 


图 4.19 超 面 示意 图 


在 图 4.19 中 ,菱形 表 示 超 面 ，, 为 数据 集中 的 一 点 ， 更 是 超 面 权重 ， 假 设 XY 和 广 " 
是 超 面 上 的 点 ， 则 : 


WX'+b=0 
WX"+b=0 


SW'(X'-X")=0 
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因此 丈 垂 直 于 超 面 。 那 么 %, 到 超 面 的 距离 就 是 %, 和 超 面 上 任意 一 点 对 的 连 线 在 到 
上 的 投影 ， 如 图 4.20 所 示 。 


图 4.20 求 取 距离 


万 的 单位 投影 为 : 


(高 -X) 在 所 上 的 投影 为 : 


[F(X, A * LE +b—(WTX+D) 


由 于 点 闻 位 于 超 面 之 内 ， 所 以 : 
W'X+b=0 
因此 点 4 到 超 面 的 距离 为 : 
| 
I”l 
这 样 可 以 使 得 分 类 器 距 所 有 样本 距离 最 远 ， 即 最 大 化 边 距 。 但 是 最 大 化 边 距 的 前 提 


是 我 们 要 找到 支持 向 量 ， 也 就 是 离 分 类 器 最 近 的 样本 点 ， 此 时 就 要 完成 两 个 优化 任务 ， 
找到 离 分 类 器 最 近 的 点 《支持 向 量 )， 然 后 最 大 化 边 距 ， 即 要 求 : 


,|X + 
pmax ”wz 


大 括号 里 面 表示 找到 距离 分 类 超 面 最 近 的 支持 向 量 , 大 括号 外 面 则 是 使 得 超 面 离 支 
持 向 量 的 距离 最 远 。 要 优化 这 个 函数 相当 困难 ， 没 有 有 效 的 优化 方法 。 但 是 可 以 把 问题 
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转换 一 下 ， 如 果 把 大 括号 里 面 的 优化 问题 固定 住 ， 然 后 来 优化 外 面 就 很 容易 了 ， 可 以 用 
现在 的 优化 方法 来 求解 ， 因 此 我 们 做 一 个 假设 ， 假 设 : 
WX, +6l=1 


那么 只 剩 下 优化 丈 ， 整 个 优化 公式 可 以 写成 : 


上 述 过 程 是 有 等 式 约束 的 优化 ， 约 束 条 件 为 : 
WX, +6|=1 


记 思 样本 交 的 标签 ， 令 
[WX +6|=», (WTX, +5) 
假设 把 样本 总 的 标签 设 为 1 或 者 -1， 当 加 在 超 面 上 面 (或 者 右边 ) 时 ,yy 为 1， 
WTX,+b 的 计算 结果 大 于 零 ， 故 y (WX +5) 可 以 表示 x 离 超 面 的 距离 ， 当 为 在 超 面 
下 面 (或 者 左边 ) 时 ，y 为 -1，W™X,+5b 的 计算 结果 小 于 零 ， 故 (WW7X,+6b) 仍 可 以 表 
示 为 离 超 面 的 距离 。 因 此 把 通常 两 类 的 标签 0 和 1 转换 成 -1 和 1, 就 可 以 把 标签 信息 融 
入 等 式 约束 之 中 。 
通常 需要 求解 的 最 优化 问题 有 如 下 几 类 。 
(i) 无 约束 优化 问题 
min flx); 
(i 有 等 式 约束 的 优化 问题 
min Ax), 


st. h_iW)=0; i=1,2n 
(ii) 有 不 等 式 约束 的 优化 问题 


min f(x), 
st. g_i(x)<0; i=1,2,…,n 
h_j(x)=0; j=1,2,…,m 


对 于 第 Qi) 类 的 优化 问题 ， 常 用 Fermat 定理 ， 求 取 fx) 的 导数 ， 然 后 令 其 为 零 ， 可 以 
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求 得 候选 最 优 值 ， 再 在 这 些 候选 值 中 验证 ;如果 是 凸 函数 ， 可 以 保证 是 最 优 解 。 

对 于 第 (让 类 的 优化 问题 ， 常 用 拉 格 朗 日 乘 子 法 (Lagrange Multiplier)， 把 等 式 约束 
Ai 用 一 个 系数 与 /oO 写 为 一 个 式 子 ， 称 为 拉 格 朗 日 函数 ， 而 系数 称 为 拉 格 朗 日 乘 子 。 
通过 拉 格 朗 日 函数 对 各 个 变量 求 导 ， 令 其 为 零 ， 可 以 求 得 候选 值 集合 ， 然 后 验证 求 得 最 
优 解 。 

对 于 第 (ii) 类 的 优化 问题 ， 常 用 KKT 条 件 。 把 所 有 的 等 式 、 不 等 式 约束 与 Ax) 写 为 
一 个 式 子 ， 叫 拉 格 朗 日 函数 ， 系 数 为 拉 格 朗 日 乘 子 ， 通 过 一 些 条件 ， 可 以 求 出 最 优 解 的 
必要 条 件 ， 即 KKT 条 件 。 

SVM 问题 符合 第 二 类 优化 方法 ， 最 大 化 ||W| 的 导数 可 以 通过 最 小 化 咏 刺 实现 ， 


Minimize BWW 
st. yAWIX,+b)21l; n=1,2,,N 
上 述 问 题 可 以 通过 拉 格 朗 日 乘 子 法 转换 为 极 值 问 题 进行 求解 。 拉 格 朗 日 函数 为 : 
N 
Ewha) = Ww -Yo (s, (WK, +t)-) 


式 中 > 0 为 拉 格 朗 日 乘 子 。 为 了 得 到 极 值 点 ， 将 拉 格 朗 日 乘 子 法 函数 分 别 对 天 和 
b 求 导 ， 令 导数 为 0， 得 到 : 


N 
W— ay,X, 
n=1 


= Si =0 
最 终 得 到 要 求解 的 优化 函数 为 : 
Minimize L(a)= Sa -3 p00 XX, 


N 
E Poy, =0 
n=] 


Qa,>0 


现在 只 需要 做 一 个 二 次 规划 即 可 求 出 a， 二 次 规划 优化 求解 为 : 
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PPAR PUD PPyA A 
ee ps 琢 为 抽 肌 ” 访 太 及 为。 胸 也 天 而 a+(-r)a 
Vr 
T 了 T 
JJXN JJ YNYwXNXy 

st. Ja=0 

线性 约束 条 件 
人 < 

下 边界 上 边界 


在 求 出 w 之后， 就 可 以 求 出 政 了 。 

到 此 为 止 ，SVM 的 公式 推导 完成 ， 可 以 看 出 数学 理论 很 严密 ， 很 优美 。 二 次 规划 
求解 计算 量 很 大 ， 在 实际 应 用 中 常用 SMO (Sequential Minimal Optimization ) 算法 。 

2. 实现 过 程 


寻找 最 大 化 间隔 的 目标 最 终 转 换 成 求解 拉 格 朗 日 乘 子 变量 a 的 求解 问题 , 求 出 a 即 
可 求解 出 SVM 的 权重 现 有 了 权重 也 就 有 了 最 大 间 阳 距离。 但 是 其 实 我 们 有 个 假设 : 
就 是 训练 集 是 线性 可 分 的 ， 这 样 求 出 的 a 在 [0,infinite] 之 间 。 但 是 如 果 数 据 不 是 线性 可 
分 的 呢 ? 此 时 我 们 就 要 允许 部 分 样本 可 以 越过 分 类 器 ， 这 样 优化 的 目标 函数 就 可 以 不 
变 ， 只 要 引入 松弛 变量 &, >0 即 可 ， 它 表示 错 分 类 样本 点 的 代价 ， 分 类 正确 时 它 等 于 0， 
当 分 类 错误 时 ， 有 : 


= -y(X) 


其 中 表示 样本 的 真实 标签 -1 或 者 1， 我 们 把 支持 向 量 到 分 类 器 的 距离 固定 为 1， 
因此 两 类 的 支持 向 量 间 的 距离 肯定 大 于 1, 当 分 类 错误 时 & 肯定 大 于 1, 如 图 4.21 所 示 。 


Wl 
y=0 
y=1 


< =0 
图 4.21 错 分 类 的 代价 
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有 了 错 分 类 的 代价 ， 把 目标 函数 添加 上 这 一 项 错 分 类 代价 ， 得 : 
cs ipt 


采用 拉 格 朗 日 乘 子 法 ， 得 : 
LOW.ba) = + CE -Ya (ir(X,) 1+ -Ps 


多 了 一 个 如 乘 子 ， 继 续 求 解 此 目标 函数 ， 求 导 得 到 ， 
0 ge) 


OW 号 


aL = 
一 =0 人 一 》 a,t,=0 
寺 Za 


=0=>S a,=C-h, 
06, 


因为 a 大 于 0, yn 大 于 0， 所 以 0<a<C。 
KKT 条 件 为 : 


a,>0 


ty (XK,)-1l+é, 20 


a (ty (X,)-1+5,)=0 


LGn =0 
优化 函数 的 形式 基本 没 变 ， 只 是 多 了 一 项 错 分 类 的 价值 ， 但 是 多 了 一 个 条 件 ， 即 
0<a<C，C 是 一 个 常数 ， 在 允许 有 错误 分 类 的 情况 下 ， 控 制 最 大 化 间距 ， 太 大 会 导致 过 


拟 合 ， 太 小 会 导致 欠 拟 合 。 
有 多 了 一 个 C 常量 的 限制 条 件 ， 继 续 用 SMO 算法 优化 求解 二 次 规划 。 


这 
如 果 样 本 线性 不 可 分 ， 引 入 核 函数 后 ， 把 样本 映射 到 高 维 空间 就 可 以 线性 可 分 ， 如 


图 4.22 所 示 为 线性 不 可 分 的 样本 。 
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非 线 性 判别 域 


站 
如 果 +QX+@X,+OXX,+OX?+O Xl+..>0 
是 否 存 在 更 好 的 特征 / ? 


图 4.22 线性 不 可 分 的 样本 


在 图 4.22 中 ， 现 有 的 样本 很 明显 线性 不 可 分 ， 但 是 假如 我 们 利用 现 有 的 样本 X 之 
间 做 些 不 同 的 运算 ， 如 图 4.22 右边 所 示 的 样子 ， 让 /作为 新 的 样本 《新 的 特征 ) 是 不 是 
更 好 些 呢 ?现在 把 X 已 经 投射 到 高 维度 上 去 了 , 但 是 不 知道 ,此 时 核 函 数 就 该 上 场 了 ， 
以 高 斯 核 函数 为 例 ， 选 几 个 样本 点 作为 基准 点 ， 利 用 核 函 数 计算 

这 样 就 有 了 _f， 而 核 函 数 此 时 相当 于 对 样本 的 X 和 基准 点 一 个 度量 ， 做 权重 衰减 ， 
形成 依赖 于 XX 的 新 的 特征 把 f 放 在 上 面 说 的 SVM 中 继续 求解 a, 然后 得 出 权重 即 可 。 

把 核 函数 加 入 目标 函数 中 : 


LZ(a)= 号 -PS aanik (ss ) 
其 中 K(x, ) 是 核 函 数 ， 采 用 SMO 优化 求解 即 可 。 


3. 训练 与 判决 


口 SVM 训练 过 程 

选择 核 函 数 ， 将 训练 样本 映射 到 高 维特 征 空间 。 在 样本 特征 空间 中 找 出 各 类 别 特征 
样本 的 最 优 分 类 超 平面 ， 得 到 代表 各 样本 特征 的 支持 向 量 集 及 其 相应 的 VC 可 信和 度 ， 形 
成 判断 各 特征 类 别 的 判别 函数 。 

口 SVM 判决 过 程 

如 图 4.23 所 示 , 将 图 像 中 待 分 类 像 元 通过 核 函数 映射 到 特征 空间 ， 作 为 判别 函数 的 
输入 ， 利 用 分 类 判决 函数 得 出 分 类 结果 。 

核 函 数 将 图 像 各 像 元 转换 输入 到 判别 函数 之 中 ， 进 行 分 类 。 
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视频 图 像 预 处 理 


样本 特征 空间 
支持 向 量 ，VC 可 信 度 
目标 类 型 分 类 判别 函数 


图 4.23 SVM 流程 


4. 算法 特点 


SVM 方法 建立 在 统计 学 习 理 论 和 结构 风险 最 小 的 原理 上 ， 根 据 有 限 的 样本 信息 在 
模型 的 复杂 性 和 学 习 能 力 之 间 寻 求 最 佳 折衷。 

SVM 方法 的 关键 在 于 核 函 数 ， 低 维 空间 向 量 集 通 常 难于 划分 ， 解 决 方法 是 将 它们 
映射 到 高 维 空 间 。 该 办 法 的 困难 就 是 计算 复杂 度 增 加 ， 核 函数 解决 了 此 问题 。 

SVM 的 最 终 判 别 函数 只 由 少数 支持 向 量 所 确定 ， 计 算 的 复杂 性 取决 于 支持 向 量 的 
数目 ， 而 不 是 样本 空间 的 维 数 。 少 数 支持 向 量 决定 最 终结 果 ， 不 但 抓 住 关键 样本 、 剔 除 
元 余 样 本 ， 而 且 算 法 简单 ， 鲁 棒 性 好 。 

要 建立 任何 一 个 数据 模型 ， 人 为 干预 越 少 越 客观 。 与 其 他 方法 相 比 ， 建 立 SVM 模 
型 所 需要 的 先 验 干预 较 少 。 

SVM 方法 对 大 规模 训练 样本 难以 实施 ,矩阵 存储 和 计算 将 耗费 大 量 的 内 存 和 运算 。 
改进 方法 有 J.Platt 的 SMO 算法 、T.Joachims 的 SYM、C.J.C.Burges 的 PCGC、 张 学 工 的 
CSVM、O.L.Mangasarian 的 SOR。 

SVM 核 函数 的 选取 以 及 参数 确定 不 具有 普遍 性 ， 不 同 的 问题 和 区 域 都 可 能 不 一 样 ， 
没有 形成 统一 模式 ， 即 使 最 优 SVM 算法 的 参数 选择 也 可 能 要 凭借 经 验 、 实 验 对 比 获 取 。 

SVM 方法 解决 多 分 类 问题 存在 困难 ， 可 以 通过 多 个 二 类 SVM 的 组 合 来 解决 ， 主 要 
有 一 对 多 组 合 模式 、 一 对 一 组 合 模式 和 SVM 决策 树 。 
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4.6 ”BP 网 络 


1986 年 以 Rumelhart 和 McCelland 为 首 的 科研 小 组 提出 了 BP (Back Propagation ) 
神经 网 络 ， 代 表 论 文 为 Learning representations by back-propagating errors。 该 文 的 主要 
作者 Geoffrey E. Hinton 就 是 深度 学 习 提 出 者 。 


1. 基本 原理 


BP 神经 网 络 是 应 用 最 广泛 的 神经 网 络 模型 之 一 ， 其 训练 方法 为 按 误 差 逆 传播 算法 ， 
为 多 层 前 馈 网 络 。BP 网 络 的 特点 是 能 学 习 和 存储 大 量 的 输入 -输出 模式 映射 关系 ， 而 无 
须 事前 揭示 描述 这 种 映射 关系 的 数学 方程 。 BP 网 络 的 学 习 规则 为 最 速 下 降 法 ， 通 过 反 
向 传播 不 断 调整 网 络 的 权 值 和 阅 值 ， 以 网 络 的 误差 平方 和 最 小 为 训练 原则 。 

神经 网 络 学 习 模型 包括 输入 层 、 隐 含 层 和 输出 层 ,典型 的 BP 神经 网 络 模型 如 图 4.24 
所 示 。 


Input Hidden Layer Output Layer 


图 4.24 典型 的 BP 神经 网 络 模型 
BP 神经 元 的 传输 函数 为 非 线 性 函数 ， 而 在 感知 机 中 为 阶 跃 函数 ， 在 线性 神经 网 络 
中 为 线性 函数 ,一 般 选 用 log-sigmoid 函数 或 tan-sigmoid 函数 。BP 神经 网 络 通常 为 多 层 
神经 网 络 ， 图 4.24 中 所 示 的 BP 神经 网 络 的 隐 含 层 的 传输 函数 即 为 非 线性 函数 ， 隐 含 层 
可 以 有 多 层 ， 而 输出 层 的 传输 函数 不 限 其 为 线性 函数 或 非 线性 函数 。 
输入 层 与 隐 含 层 的 关系 为 : 


n=f (Wrx+p") 


其 中 x 为 m 维特 征 向 量 ( 列 向 量 )，WK? 为 nxm 维权 值 矩 阵 ，b 中 为 n 维 的 偏 置 向 量 
( 列 向 量 )。 
隐 含 层 与 输出 层 的 关系 为 : 


y=f (wohrp®) 
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神经 网 络 的 关键 之 一 是 通过 有 监督 的 学 习 来 确定 权 值 。 

口 学 习 目 的 : 学 习 到 一 个 模型 ， 能 够 对 输入 得 到 期 望 的 输出 。 
口 学 习 方 式 : 在 外 界 输 入 样本 的 刺激 下 改变 网 络 的 权 值 和 阅 值 。 
口 学 习 本 质 : 动态 调整 各 连接 权 值 和 阅 值 . 

口 学 习 核心 : 连接 权 值 和 阅 值 的 调整 规则 。 


如 图 4.25 所 示 ，3 层 BP 神经 网 络 的 传播 对 象 是 误差 ,传播 目的 是 得 到 所 有 层 的 估 
计 误 差 ， 由 后 层 误 差 推 导 前 层 误差 。 根 据 输出 值 的 误差 来 逆向 估计 该 层 直接 上 一 级 前 导 
层 的 误差 ， 再 用 这 个 误差 进一步 估计 更 前 一 层 的 误差 ， 如 此 层 层 逆 推 ， 获 得 所 有 层 各 自 


的 误差 估计 。 
0 
Wb 


n 


图 4.25 3 层 BP 神经 网 络 模型 
BP 利用 激活 函数 描述 层 与 层 输出 之 间 的 关系 ， 模 拟 各 层 神 经 元 之 间 的 交互 反应 。 


如 图 4.26 所 示 ， 激 活 函数 必须 处 处 可 导 ，, 常用 的 是 S 型 函数 (Simoid 或 Logistic 函数 )。 
输入 : 


net = XW + XW 十 .2 


nn 


输出 : 
p=/ (ne) = 


S 型 函数 的 导数 为 : 
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me flnet) | 
一 一 fneb) 的 导数 


图 4.26 S 型 函数 

2. 实现 过 程 

对 于 一 个 包括 输入 样本 X 和 期 望 输 出 Y 的 训练 集 , BP 模型 的 训练 过 程 如 图 4.27 所 
示 。 其中， 输入 层 有 个 神经 元 ， 隐 含 层 有 jp 个 神经 元 ， sy 输入 样 
本 为 x=(%,w…, 加 ); 隐 含 层 输入 向 量 为 碳 =( 有 所 ,有 所,…,hi,) ; 隐 含 层 输出 向 量 为 
ho=(ho,ho,,…,ho,) ; 输出 层 输 入 向 量 为 责 =( 芒 ,地 …, 世 ) ; 输出 层 输出 向 量 为 
0 = (yo1,y0,,…,y0, ) :期望 输出 向 量 为 4, = (di,d,,…,d， ) ; 输入 层 与 中 间 层 的 连接 权 值 
为 Ww; 交合 层 与 输出 层 的 连接 术 值 为 员 ，， 隐 含 层 各 神经 元 的 阔 值 为 bh， 输 出 层 各 神 
经 元 的 阔 值 为 bo; 样本 数据 个 数 为 三 12…,m; 激活 函数 为 f/; 误差 函数 为 


-3 (t=, () . 
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正 向 传播 : 
输入 样本 一 一 输入 层 一 一 隐 含 层 一 一 输出 层 
判断 是 否 转 入 反 向 传播 阶段 : 
若 输出 层 的 实际 输出 与 期 望 的 输出 〈 教 师 信号 ) 不 符 


\ 误差 反 向 传播 
误差 以 某 种 形式 在 各 层 表示 修正 各 层 单 元 的 权 值 


网 络 输出 的 误差 减少 到 可 接受 的 程度 
或 进行 到 预先 设 定 的 学 习 次 数 为 止 


图 4.27 BP 模型 的 训练 过 程 
(1) BP 模型 的 实现 流程 
BP 模型 的 实现 流程 可 分 为 8 步 。 


GI01 初始 化 网 络 . 

对 各 连接 权 值 分 别 随机 赋予 区 间 (-1,1) 内 的 初始 值 ， 设 定 误差 函数 e， 预 设计 算 精 度 
值 6 和 最 大 学 习 次 数 M。 

CT02 随机 选取 第 上 个 输入 样本 及 其 期 望 输出 。 


x(k)=(5(k), (ks, (#)) 
d, (kK)=(a (kK),ds (Kk),,d, (Kk)) 


303 计算 隐 含 层 和 输出 层 各 神经 元 的 输入 和 输出 。 


his(k)=D wan (k) -bh=12,..,p 


hos (k)=f (hi (k)),h=1,2,.,p 
芒 ( 昌 = 六 wpo( 昌 -bo 二 
yo, (Kk)=/ (yi,(k)),0=1,2,.…9 


C04 根据 网 络 期 望 输出 和 实际 输出 间 的 差 值 , 计算 误差 函数 对 输出 层 各 神经 元 
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Ge ae Ovi, 


Ow Ovi, Ow, 


Ow 站 OW, 


oS) -0.00))] 


=ho, (k) 


Ov opi, 
=-(d,(k)—yo, (k))yo; (k) 
=-(d, (k)— vo, (KF) 7' (wi, (k)) 
=6,(k) 


oi, (各 一: a Oo (有 
Ohi, (日 Oho; (k) Ohi, (k) 


> (CAA 二 OO- ja 
h(t) hi,(k) 


1 g 
人 


Oho; (k) Ohi, (k) 
Oho, (Kk) 


= (0) -0, (7) we 
A CA) 


=56,(k) 


CET05 结合 输出 层 各 神经 元 的 6,(k) 和 隐 含 层 各 神经 元 的 输出 ， 


Ar, (4) =—12 = p65, (kK)hon (h) 


(io 人 


区 


二 


EF 连接 权 值 
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C306 根据 隐 含 层 各 神经 元 的 5(k) 和 输入 层 各 神经 元 的 输入 修正 连接 权 值 。 


Aw, (£) 到 -pe 一 各 2 =6, (CIEALS) 


Wh” = wh +76, (k)x(k) 
CTI07 计算 全 局 误差 


1 才 2 
B= S(t) 
G003 当 误 差 小 于 预 设 精度 或 学 习 次 数 大 于 设 定 的 最 大 次 数 时 , 算法 结束 . 否则， 
新 选取 下 一 个 学 习 样本 及 对 应 的 期 望 输出 ， 跳 转 到 Step3， 开 始 下 一 轮 的 学 习 。 
(2) BP 模型 的 权 值 调整 方向 


如 图 4.28 所 示 ， 当 误差 对 权 值 的 偏 导 数 大 于 零 时 ， 权 值 调 整 量 为 负 ， 实际 输出 大 于 
期 望 输出 ， 权 值 向 减少 方向 调整 ， 使 得 实际 输出 与 期 望 输出 的 差 减 少 。 


| 


[2 


Who 
-3e > 0, 此 时 Aw;, <0 
ww 


图 4.28 权 值 减少 


如 图 4.29 所 示 ， 当 误差 对 权 值 的 偏 导数 小 于 零 时 ， 权 值 调整 量 为 正 ， 实 际 输出 少 于 
期 望 输出 ， 权 值 向 增 大 方向 调整 ， 使 得 实际 输出 与 期 望 输出 的 差 减 少 。 
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ae Wio 
5 <0, 此 时 Aw。>0 


图 4.29 权 值 增 大 


BP 神经 网 络 模型 结构 可 分 为 输入 层 (input)、 隐 含 层 (hide layer) 和 输出 层 (output 
layer)。 输 入 层 神经 元 的 个 数 与 样本 属性 的 维度 相关 ， 输 出 层 神经 元 的 数量 由 样本 种 类 
数 决定 。 隐 含 层 的 层 数 和 每 层 的 神经 元 数量 由 用 户 设 定 。 每 一 层 包含 若干 个 神经 元 ， 每 
个 神经 元 包含 一 个 阔 值 9, 用 来 调节 神经 元 的 活性 。 网 络 中 的 弧 线 wy 表示 前 一 层 神经 元 
和 后 一 层 神 经 元 之 间 的 权 值 。 每 个 神经 元 都 有 输入 和 输出 。 输 入 层 的 输入 和 输出 都 是 训 
练 样本 的 属性 值 。 

隐 含 层 和 输出 层 的 输入 为 : 


L =2WO+O 


其 中 ，wy 是 由 上 一 层 的 单元 i 到 单元 j 的 连接 权 值 ，O; 是 上 一 层 的 单元 i 的 输出 ; 
而 是 单元 7 的 阔 值 。 

神经 网 络 的 学 习 率 通常 取 0 和 1 之 间 的 值 ， 有 助 于 找到 全 局 最 优 结果 。 如 果 学 习 率 
太 小 ， 学 习 过 程 缓慢 ， 反 之 则 可 能 会 在 不 恰当 的 解 之 间 摆 动 的 情况 。 

(3) BP 算法 的 伪 代 码 

BP 算法 的 基本 流程 如 下 。 

E301 初始 化 网 络 权 值 和 神经 元 的 阐 值 (如 随机 初始 化 ) 。 

G2002 前 向 传播 ， 逐 层 计算 隐 含 层 和 输出 层 神经 元 的 输入 和 输出 。 

人 ED3 后 向 传播 , 修正 权 值 和 辣 值 . 


跳 至 步骤 2， 直到 满足 终止 条 件 。 
BP 算法 的 伪 代 码 为 : 


BPTrain() 
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{ 
Begin: 初始 化 network 的 权 和 赣 值 。 
while 终止 条 件 不 满足 


for samples 中 的 每 个 训练 样本 XxX { 
// 向 前 传播 输入 
for 隐藏 或 输出 层 每 个 单元 j { 
万 =mO+6; // 计算 单元 j 的 输入 
0,=1/1+e”"); // 计算 单元 j 的 输出 
} 
// 后 向 传播 误差 
for 输出 层 每 个 单元 j { 
Err, =0,(1-0,)(T, -0,); // 计算 误差 
} 
for 由 最 后 一 个 到 第 一 个 隐 含 层 ， 对 于 隐 含 层 每 个 单元 j { 
Bm=O(-O)>Bmiww ; // k 是 j 的 下 一 层 神经 元 
} 
for network 中 每 个 权 值 mi { 
Aw =(1) Err,0;: // 权 值 增值 
=w +Aw: // 权 值 更 新 


Ws 


} 

for network 中 每 个 闪 值 0 { 
A9,=(1)Err, : // 阔 值 增值 
90),=0,+A9,:; // 阅 值 更 新 


(4) BP 模型 的 学 习 


对 于 输出 层 神经 元 Em, = 0, (1-0, (7 一 0,)，0O; 是 单元 的 实际 输 


于 给 定 训练 样本 的 已 知 类 标号 的 真正 输出 。 


对 于 隐 含 层 神经 元 Em; = 0 (1-0) ) ,Biws ，wy 是 由 下 一 较 高 层 


J 的 连接 权 ，Errt 是 单元 的 误差 。 


而 是 j 基 


Hb 
D 


Ph 单元 到 单元 


Aw =(1)Err,0, 为 权 值 增 量 ，A9, =(1) Er 为 阔 值 增 量 ， 其 中 1 是 学 习 率 。 
Errj 是 神经 元 的 误差 ， 对 于 Err; 的 推导 采用 梯度 下 降 算 法 ， 其 原则 是 保证 输出 单元 


的 均 方差 最 小 。 
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1 7) p) 
二 人 
其 中 PP 是 样本 总 数 ，m 是 输出 层 神 经 元 个 数 ，di” 是 样本 实际 输出 
络 输 出 。 
对 E4 求 wy 的 导数 ， 实 现 梯 度 下 降 


如 图 4.30 所 示 ， 对 于 输出 层 : 


y 中 是 神经 网 


图 4.30 输出 层 


OB, _ 才 Pp ago _ Pp ag? Dj 人 Qu?) 


Ow Fw A DO “Br Ow 
~ us?) i Dw x Xe 
四 


及 =1(i+e™) 


El®) -5 _ wo) 


2 Re ->((a? —y°)x(y" x (- 欧 ))xx 


其 中 ，( 中 -区 ) 攻 就 是 Em,=0,(1-0,)(7, -0,)。 


如 图 4.31 所 示 ， 对 于 隐 含 有 


图 4.31 隐 含 层 
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BE， -0 _< al OE(?) 、 oy so . ar Bl 
Ows pa Ows FI 所 A?) Boy) Ore Oug, Ow 


6, 号 Sy (dm —y?)f' (ur ) wr (1 = 


0 2 xl 人 (1 2 jan 
1 


OE, G6(P)x'(?) 
三 一 
Ow ps J 


ml 
其 中 ，520 = 宛 52wisst9 (1- 中 就 是 隐 合 层 的 误差 计算 公式 。 


(5) BP 网 络 设计 

BP 网 络 设计 包括 网 络 层 数 、 每 层 中 的 神经 元 个 数 和 激活 函数 、 初 始 值 以 及 学 习 速 
率 等 。 

理论 证 明 , 任何 有 理 函 数 可 由 具有 偏差 和 至 少 一 个 S 型 隐 含 层 加 上 一 个 线性 输出 层 
的 网 络 来 允 近 实现 。 增 加 层 数 可 以 进一步 降低 误差 , 提高 精度 , 但 同时 也 使 网 络 复杂 化 。 
不 能 用 仅 具 有 非 线 性 激活 函数 的 单 层 网 络 来 解决 问题 ， 因 为 能 用 单 层 网 络 解决 的 问题 ， 
用 自 适 应 线性 网 络 也 一 定 能 解决 ， 而 且 自 适应 线性 网 络 的 运算 速度 更 快 ， 而 对 于 只 能 用 
非 线 性 函数 解决 的 问题 ， 单 层 精度 又 不 够 高 ， 也 只 有 增加 层 数 才能 达到 期 望 的 结果 。 

网 络 训练 精度 的 提高 ， 可 以 通过 采用 一 个 隐 含 层 ， 而 增加 其 神经 元 个 数 的 方法 来 获 
得 ， 这 在 结构 实现 上 要 比 增加 网 络 层 数 简单 得 多 。 用 精度 和 训练 网 络 的 时 间 来 衡量 一 个 
神经 网 络 设计 的 好 坏 : 神经 元 数 太 少时 ， 网 络 不 能 很 好 地 学 习 ， 训 练 迭 代 的 次 数 也 比较 
多 ， 训 练 精度 也 不 高 。 神 经 元 数 太 多 时 ， 网 络 的 功能 越 强大 ， 精 确 度 也 更 高 ， 训 练 迭 代 
的 次 数 也 大 ， 可 能 会 出 现 过 拟 合 现象 。 神 经 网 络 隐 层 神经 元 个 数 的 选取 原则 是 : 在 能 
解决 问题 的 前 提 下 ， 再 加 上 一 两 个 神经 元 ， 以 加 快 误差 下 降 速 度 即 可 。 

学 习 速 率 一 般 选 取 为 0.01 一 0.8, 大 的 学 习 速 率 可 能 导致 系统 的 不 稳定 , 小 的 学 习 速 
率 导致 收敛 太 慢 ， 需 要 较 长 的 训练 时 间 。 对 于 较 复杂 的 网 络 ， 在 误差 曲面 的 不 同位 置 可 
需要 不 同 的 学 习 速率 ,为 了 减少 寻找 学 习 速 率 的 训练 次 数 及 时 间 ， 比 较 合 适 的 方法 是 
采用 变化 的 自 适应 学 习 速 率 ， 使 网 络 在 不 同 的 阶段 设置 不 同 大 小 的 学 习 速 率 。 

在 设计 网 络 的 过 程 中 ， 期 望 误 差 值 也 应 当 通过 对 比 训练 后 确定 一 个 合适 的 值 ， 这 个 
合适 的 值 是 相对 于 所 需要 的 隐 含 层 节点 数 来 确定 的 。 可 以 同时 对 两 个 不 同 的 期 望 误差 值 
的 网 络 进 行 训练 ， 最 后 通过 综合 因素 来 确定 其 中 一 个 网 络 。 


第 4 章 海量 视频 分 析 93 


3. 算法 特点 


BP 算法 需要 较 长 的 训练 时 间 ， 主 要 由 于 学 习 速 率 太 小 而 造成 ， 可 采用 变化 的 或 自 
适应 的 学 习 速 率 来 加 以 改进 。 

完全 不 能 训练 ， 主 要 表现 在 网 络 的 麻 癣 上， 通常 为 了 避免 这 种 情况 的 产生 ， 一 是 选 
取 较 小 的 初始 权 值 ， 二 是 采用 较 小 的 学 习 速 率 。 

采用 的 梯度 下 降 法 可 能 收敛 到 局 部 最 小 值 ， 采 用 多 层 网 络 或 较 多 的 神经 元 ， 有 可 能 
得 到 更 好 的 结果 。 

BP 算法 改进 的 主要 目标 是 加 快 训练 速度 、 避 免 陷 入 局 部 极 小 值 等 ， 常 见 的 改进 方 
法 有 带动 量 因子 算法 、 自 适应 学 习 速 率 、 变 化 的 学 习 速 率 以 及 作用 函数 后 缩 法 等 。 动 量 
因子 法 是 在 反 向 传播 的 基础 上 , 在 每 一 个 权 值 的 变化 上 加 上 一 项 正比 于 前 次 权 值 变化 的 
值 ， 并 根据 反 向 传播 法 来 产生 新 的 权 值 变 化 。 自 适应 学 习 速 率 方法 只 针对 一 些 特定 的 问 
题 。 改 变 学 习 速 率 方法 的 原则 是 ， 在 连续 几 次 迭代 中 ， 若 目标 函数 对 某 个 权 倒数 的 符号 
相同 ， 则 这 个 权 的 学 习 速 率 增加 ， 反 之 若 符 号 相反 ， 则 学 习 速率 减 小 。 而 作用 函数 后 缩 
法 则 是 将 作用 函数 进行 平移 ， 即 加 上 一 个 常数 。 


4.7 多 感知 器 模型 


神经 网 络 模型 如 图 4.32 所 示 。 


oe 
So22o 一 os) 


输入 层 x 隐 含 层 1<1<L 输出 层 ! = 世 
图 4.32 神经 网 络 模型 


图 4.32 中 的 神经 网 络 模型 由 多 个 感知 器 (Perceptron) 分 几 层 组 合 而 成 ， 感 知 器 就 
是 单 层 的 神经 网 络 ， 只 有 一 个 输出 节点 ， 如 图 4.33 所 示 。 
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图 4.33 感知 器 


一 个 感知 器 相当 于 一 个 线性 分 类 器 ， 一 层 神经 网 络 有 多 个 隐藏 节点 时 ， 为 多 个 感知 
器 的 组 合 ， 就 是 多 个 线性 分 类 器 组 合 形成 非 线 性 分 类 器 ， 如 图 4.34 所 示 。 


8 perceptrons 16 perceptrons 


图 4.34 多 感知 器 


多 层 的 感知 器 组 合 起 来 ， 拟 合 能 力 虽 然 强大 , 但 是 求 出 准确 拟 合 参数 的 算法 不 是 太 
好 ， 容 易 陷入 局 部 最 小 ， 而 且 BP 算法 很 容易 陷入 局 部 最 小 。 

局 部 最 小 的 情况 ， 如 图 4.35 所 示 ， 网 络 的 权重 被 随机 初始 化 后 ， 求 得 梯度 ， 然 后 用 
梯度 更 新 参数 ， 如 果 初 始 化 的 参数 的 点 选择 得 不 恰当 ， 则 梯度 为 0 的 点 可 能 是 一 个 使 得 
代价 J 局 部 最 小 的 点 ， 而 不 是 全 局 最 小 ， 自 然 得 到 的 网 络 权 重 也 不 是 最 好 的 。 因 为 网 络 
规模 大 容易 导致 过 拟 合 ， 深 度 学 习 提 了 一 系列 的 trick 改善 这 些 问题 。 比 如 用 贪心 预 训 
练 来 改进 初始 化 参数 ， 相 当 于 找到 一 个 好 的 初始 点 ， 在 正 负 阶段 里 主动 修改 了 的 地 形 ， 
最 后 再 结合 标签 用 传统 的 BP 算法 继续 寻找 全 局 最 小 ， 这 个 BP 算法 的 作用 在 深度 学 习 
里 叫 权重 微调 ，BP 不 是 唯一 的 权重 微调 算法 ， 各 种 微调 的 宗 则 只 有 一 个 : 求 取 目 标 函 


数 的 梯度 ， 更 新 参数 。 深 度 学 习 利用 稀疏 和 dropout 来 阻止 过 拟 合 。 
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图 4.35 局 部 最 小 


4.8 ” 卷 积 神经 网 络 (CNN) 


卷 积 神经 网 络 是 一 种 特殊 的 深层 的 神经 网 络 模型 ， 其 特殊 性 体现 在 两 个 方面 ， 一 方 
面神经 元 间 的 连接 是 非 全 连接 的 ， 另 一 方面 同一 层 中 某 些 神经 元 之 间 的 连接 的 权重 是 共 
享 的 〈 即 相同 的 )。 卷 积 神经 网 络 具 有 非 全 连接 和 权 值 共享 的 网 络 结构 ， 更 类 似 于 生物 
神经 网 络 ， 可 以 降低 了 网 络 模型 的 复杂 度 ， 减 少 了 权 值 的 数量 。 

卷 积 网 络 最 初 受 视 觉 神经 机 制 的 启发 ， 设 计 为 用 于 进行 二 维 形状 识别 ， 对 平移 、 缩 
放 、 倾 斜 等 变形 具有 较 高 的 不 变性 。1962 年 Hubel 和 Wiesel 在 对 猫 的 视觉 皮层 细胞 进 
行 研究 后 ， 提 出 感受 野 (receptive field) 的 概念 ，1984 年 日 本 科学 家 Fukushima 基于 感 
受 时 概念 提出 神经 认 知 机 (neocognitron) 模型 ， 该 模型 将 一 个 视觉 模式 分 解 为 若干 特征 
子 模式 ,然后 以 分 层 递 阶 式 相 连 的 特征 平面 进行 处 理 ， 试 图 将 视觉 系统 模型 化 ， 并且 利 
用 位 移 恒 定 能 力 从 激励 模式 中 学 习 ， 使 其 能 够 在 即使 物体 有 位 移 或 轻微 变形 时 ， 可 识别 
这 些 模式 的 变化 形式 。 神 经 认 知 机 被 看 作 是 第 一 个 实现 了 的 卷 积 神经 网 络 ， 也 是 感受 野 
概念 在 人 工 神经 网 络 领域 的 首次 应 用 。 Fukushima 将 神经 认 知 机 主要 用 于 手写 数字 识别 ， 
其 他 科研 工作 者 发 展 出 多 种 卷 积 神经 网 络 形式 ， 广泛 应 用 于 邮政 编码 识别 、 车 牌 识别 和 
人 脸 识 别 等 方面 。 

1. CNN 的 结构 


卷 积 网 络 是 在 有 监督 方式 下 学 会 的 ， 网 络 结构 主要 有 稀疏 连接 和 权 值 共享 两 个 特 
点 ， 包 括 如 下 形式 的 约束 。 

口 特征 提取 

每 一 个 神经 元 从 上 一 层 的 局 部 接受 域 得 到 突 触 输 入 ， 迫使 它 提取 局 部 特征 。 一旦 一 
个 特征 被 提取 出 来 ， 只 要 它 相对 于 其 他 特征 的 位 置 被 近似 地 保留 下 来 ， 它 的 精确 位 置 就 
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没有 那么 重要 了 。 

口 特征 映射 

网 络 的 每 一 个 计算 层 都 是 由 多 个 特征 映射 组 成 的 ， 每 个 特征 映射 都 是 平面 形式 的 。 
平面 中 单独 的 神经 元 在 约束 下 共享 相同 的 突 触 权 值 集 ， 这 种 结构 形式 具有 平移 不 变性 、 
自由 参数 数量 的 缩减 。 

口 子 抽样 

每 个 卷 积 层 都 有 与 之 相连 的 计算 层 ， 用 于 实现 局 部 平均 和 子 抽样 ， 从 而 降低 特征 映 
射 的 分 辨 率 ， 增 强 对 平移 和 其 他 变形 的 适应 性 。 

(1) 稀 玖 连接 ( Sparse Connectivity ) 

卷 积 网 络 通过 在 相 邻 两 层 之 间 强 制 使 用 局 部 连接 模式 来 利用 图 像 的 空间 局 部 特性 ， 
在 第 m 层 的 隐 层 单元 只 与 第 m-1 层 的 输入 单元 的 局 部 区 域 有 连接 ， 第 m-1 层 的 这 些 局 
部 区 域 被 称 为 空间 连续 的 接受 域 。 

设 第 m-1 层 为 视网膜 输入 层 , 第 m 层 的 接受 域 的 宽度 为 3， 也 就 是 说 该 层 的 每 个 单 
元 与 且 仅 与 输入 层 的 3 个 相 邻 的 神经 元 相连 , 第 m 层 与 第 m+l 层 具 有 类 似 的 链接 规则 ， 


如 图 4.36 所 示 。 
m+l 层 O 


m 层 


m-1 层 


图 4.36 稀 玻 连 接 


可 以 看 到 m+1 层 的 神经 元 相对 于 第 m 层 的 接受 域 的 宽度 也 为 3， 但 相对 于 输入 层 
的 接受 域 为 S， 这 种 结构 将 学 习 到 的 过 滤器 〈 对 应 于 输入 信号 中 被 最 大 激活 的 单元 ) 限 
制 在 局 部 空间 模式 ， 因 为 每 个 单元 对 它 接受 域外 的 variation 不 做 反应 。 多 个 这 样 的 层 堆 
受 起 来 后 ， 会 使 得 过 滤器 (不 再 是 线性 的 ) 逐渐 成 为 全 局 的 (也 就 是 覆盖 到 更 大 的 视觉 
区 域 )。 如 图 4.36 中 第 m+1 层 的 神经 元 可 以 对 宽度 为 5 的 输入 进行 一 个 非 线性 的 特征 编 
码 。 

(2) 权 值 共享 ( Shared Weights ) 

在 卷 积 网 络 中 ， 每 个 稀疏 过 滤器 加 通 过 共享 权 值 ， 覆 盖 整 个 可 视 域 , 这 些 共享 权 值 
的 单元 构成 一 个 特征 映射 ， 如 图 4.37 所 示 。 
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特征 映射 
m 层 


m-l 层 


图 4.37 权 值 共享 


在 图 4.37 中 , 有 3 个 隐 含 层 单元 ， 属 于 同一 个 特征 映射 。 同 种 颜色 的 链接 的 权 值 是 
相同 的 , 仍然 可 以 使 用 梯度 下 降 方法 来 学 习 这 些 权 值 , 只 需要 对 原始 算法 做 一 些小 改动 ， 
共享 权 值 的 梯度 是 所 有 共享 参数 的 梯度 的 总 和 。 为 什么 要 共享 权 值 呢 ?一 方面 ,重复 单 
元 能 够 对 特征 进行 识别 ， 而 不 考虑 它 在 可 视 域 中 的 位 置 。 另 一 方面 ， 权 值 共享 能 更 有 效 
地 进行 特征 抽取 ， 极 大 地 减少 需要 学 习 的 自由 变量 的 个 数 。 通 过 控制 模型 的 规模 ， 卷 积 
网 络 对 视觉 问题 可 以 具有 很 好 的 泛 化 能 力 。 

(3) The Full Model 

卷 积 神经 网 络 具 有 多 层 结构 ， 每 一 层 由 多 个 二 维 平面 组 成 ， 每 个 平面 又 由 多 个 独立 
神经 元 组 成 。 网 络 中 包含 简单 元 和 复杂 元 , 分 别 记 为 $- 元 和 C- 元 。S- 元 聚合 在 一 起 组 成 
S- 面 ，S- 面 聚合 在 一 起 组 成 S- 层 ， 用 Us 表示 。 类 似 地 有 C- 元 、C- 面 和 C- 层 (Us)。 卷 积 
神经 网 络 的 输入 只 包含 一 层 ， 可 直接 接 入 二 维 图 像 ， 中 间 级 由 S- 层 与 C- 层 串 接 而 成 ， 
卷 积 神经 网 络 模型 的 互联 结构 实现 特征 提取 。 

Us 为 特征 提取 层 ， 内 含 神经 元 的 输入 为 前 一 层 的 局 部 感受 野 ， 并 提取 该 局 部 的 特 
征 ， 一 旦 该 局 部 特征 被 提取 后 ， 它 与 其 他 特征 之 间 的 位 置 关系 也 随 之 确定 下 来 ; Uc 是 
特征 映射 层 ， 多 个 特征 映射 组 成 网 络 的 每 个 计算 层 ， 每 个 特征 映射 为 一 个 平面 ,平面 上 
所 有 神经 元 的 权 值 相等 .特征 映射 结构 采用 影响 函数 核 小 的 Sigmoid 函数 作为 激活 函数 ， 
使 特征 映射 具有 位 移 不 变性 。 一 个 映射 面 上 的 神经 元 共享 权 值 ， 从 而 可 以 减少 网 络 自由 
参数 的 个 数 ， 降 低 网 络 参数 选择 的 复杂 度 。 卷 积 神经 网 络 中 的 每 一 个 特征 提取 层 (S- 层 ) 
都 紧 跟着 用 来 求 局 部 平均 与 二 次 提取 的 计算 层 〈C- 层 )， 这 种 特有 的 二 次 特征 提取 结构 
使 网 络 对 输入 样本 有 较 高 的 畸变 容忍 能 力 。 

如 图 4.38 所 示 ， 卷 积 网 络 的 实现 流程 如 下 。 

输入 层 由 32x32 个 感知 节点 组 成 ， 接 收 原始 图 像 数 据 。 

计算 流程 在 卷 积 和 抽样 之 间 交 替 进 行 ， 第 一 隐 含 层 Cl 由 8 个 特征 映射 组 成 ， 进 行 
卷 积 运算 ， 每 个 特征 映射 由 28x28 个 神经 元 组 成 ， 每 个 神经 元 指定 一 个 5x5 的 接受 域 ; 
第 二 隐 含 层 S2 实 现 子 抽样 和 局 部 平均 ,同样 由 8 个 特征 映射 组 成 ,每 个 特征 映射 由 14x14 
个 神经 元 组 成 。 每 个 神经 元 具有 一 个 2x2 的 接受 域 、 一 个 可 训练 系数 、 一 个 可 训练 偏 置 
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和 一 个 Sigmoid 激活 函数 。 可 训练 系数 和 偏 置 控 制 神经 元 的 操作 点 。 第 三 隐 含 层 C3 进 
行 第 二 次 卷 积 ， 由 20 个 特征 映射 组 成 ， 每 个 特征 映射 由 10x10 个 神经 元 组 成 。 该 隐 含 
层 中 的 每 个 神经 元 可 能 具有 和 下 一 个 隐 含 层 儿 个 特征 映射 相连 的 突 触 连接 ,以 与 第 一 个 
卷 积 层 相 似 的 方式 操作 。 第 四 个 隐 含 层 S4 进行 第 二 次 子 抽样 和 局 部 平均 计算 ， 由 20 个 
特征 映射 组 成 ， 每 个 特征 映射 由 5x5 个 神经 元 组 成 ， 以 与 第 一 次 抽样 相似 的 方式 操作 。 
第 五 个 隐 含 层 C5 实现 卷 积 的 最 后 阶段 , 由 120 个 神经 元 组 成 , 每 个 神经 元 指定 一 个 5x5 
的 接受 域 。 

最 后 是 全 连接 层 ， 得 到 输出 向 量 。 


Cl:feature maps 
8@28x28 


C3:f maps 


20@10x10 
S2:f. maps SR naps 


83@14x14 WOSxS Cs.120 


Output:9 


| Full 
Convolutions Connection 


lutions 


图 4.38 ” 卷 积 网 络 实例 

相继 的 计算 层 在 卷 积 和 抽样 之 间 的 连续 交替 ， 得 到 一 个 双 尖 塔 的 效果 ， 也 就 是 在 每 
个 卷 积 或 抽样 层 ， 随 着 空间 分 辨 率 的 下 降 ， 与 相应 的 前 一 层 相 比特 征 映射 的 数量 增加 。 
卷 积 之 后 进行 子 抽样 的 思想 产生 于 动物 视觉 系统 中 简单 细胞 后 面 跟着 复杂 细胞 的 启发 。 

图 4.38 中 所 示 的 多 层 感 知 器 包含 近似 100,000 个 突 触 连 接 ， 但 只 有 大 约 2600 个 自 
由 参数 。 自 由 参数 在 数量 上 显著 地 减少 ， 是 通过 权 值 共享 获得 的 ， 学 习 机 器 的 能 力 因而 
下 降 ， 提 高 了 泛 化 能 力 。 而 且 对 自由 参数 的 调整 通过 反 向 传播 学 习 的 随机 形式 来 实现 。 
另 一 个 显著 的 特点 是 使 用 权 值 共享 使 以 并 行 形 式 实现 卷 积 网 络 变 得 可 能 。 

2. CNN 的 学 习 


卷 积 网 络 可 以 简化 为 图 4.39 所 示 的 模型 。 
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cl S2 C3 


input 


图 4.39 卷 积 网 络 
其 中 ，input 到 Cl1、S4 到 C5、C5 到 output 是 全 连接 ，C1 到 S2、C3 到 S4 是 一 一 
对 应 的 连接 ， 为 了 消除 网 络 对 称 性 ，S2 到 C3 去 掉 了 一 部 分 连接 ， 可 以 让 特征 映射 更 具 
多 样 性 。C5 卷 积 核 的 尺寸 要 和 S4 的 输出 相同 ， 才 能 保证 输出 是 一 维 向 量 。 
(1) 卷 积 层 的 学 习 
卷 积 层 的 典型 结构 如 图 4.40 所 示 。 


品 


可 训练 的 
卷 积 核 


接受 域 单元 


图 4.40 卷 积 层 
卷 积 层 的 前 馈 运 算 为 : 
卷 积 层 的 输出 = Sigmoid(Sum( 卷 积 ) + 偏 移 量 ) 
其 中 卷 积 核 和 偏 移 量 都 是 可 训练 的 ， 其 核心 代码 为 : 


fprop (input, output) 
f 
// 取 得 卷 积 核 的 个 数 
int n=kernel .GetNum(0); 
for (int i=0;i<n?i++) { 
// 第 谋 个 卷 积 核对 应 输入 层 第 a 个、 输出 层 第 b 个 特征 映射 
// 从 输入 层 第 a 个 特征 映射 到 输出 层 第 b 个 特征 映射 的 一 个 链接 
int a=table[i] [0], b=table[i] [1]; 
// 用 第 i 个 卷 积 核 和 输入 层 第 a 个 特征 映射 做 卷 积 


convolution = Conv(input[al],Kkernel [i]); 
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// 把 卷 积 结果 求 和 
sum[b] +=convolution; 
} 
for (i=0;i<(int)bias.size();i++) { 
// 加 上 偏 移 量 
sum[i] += bias[i]7 
} 
// 调 用 Sigmoid 函数 
output = Sigmoid(sum) 7 


1 
其 中 ,input 矩阵 的 维 数 为 n1xn2xn3， m1 是 输入 层 特征 映射 的 个 数 ，ns 表 示 输 入 


层 特 


征 映射 的 宽度 ，n3 为 输入 层 特征 映射 的 高 度 。Output、sum、convolution、bias 都 是 
1X(n2-kwt1)x(m3-knt+1) 的 和 矩阵 ，K，、hi 分 别 为 卷 积 核 的 宽度 、 高 度 ， 一般 选用 5x5。kemel 


是 卷 积 核算 阵 。table 是 连接 表 ， 其 元 素 的 意义 为 : 如 果 第 a 个 输入 和 第 b 个 输出 之 
连接 ，table 里 [a,b] 元 素 取 1， 否 则 取 0， 而 且 每 个 连接 都 对 应 一 个 卷 积 核 。 
卷 积 层 的 反馈 运算 的 核心 代码 为 : 
ConvolutionLayer: :bprop (input, output,in dx,out_dx) 
{ 
// 梯 度 通过 DSigmoid 反 传 
sum dx = DSigmoid(out dx); 
// 计 算 bias 的 梯度 
for (i=0;i<bias.size();i++) { 
bias dx[i] = sum dx[il]; 


; 

// 取 得 卷 积 核 的 个 数 

int n=kernel .GetDim(0); 

for (int i=0;i<n;i++) 

. 
int a=table[i] [0],b=table[i] [1]; 
// 用 第 守 个 卷 积 核 和 第 b 个 输出 层 反 向 卷 积 ( 即 输出 层 的 点 乘 
// 卷 积 模板 返回 给 输入 层 )， 并 把 结果 累加 到 第 a 个 输入 层 
input dx[a] += DConv(sum dx[b],kKkernel[i]); 
// 用 同样 的 方法 计算 卷 积 模板 的 梯度 
kernel dx[i] += DConv(sum dx[b],input[al]); 


其 中 in_dx、out_dx 的 结构 和 input、output 相同 ， 代 表 相 应 点 的 梯度 。 


间 有 
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(2) 子 采样 层 的 学 习 


子 采样 层 的 典型 结构 如 图 4.41 所 示 。 


图 4.41 子 采样 层 


子 采样 层 的 输出 计算 为 : 


输出 = Sigmoid( 采样 x 权 对 


哑 


+ 偏 移 量 ) 


其 核心 代码 为 : 


SubSamplingLayer: :fprop (input, output) 


{ 


} 


int nl= input.GetDim(0); 
int n2= input.GetDim(1); 
int n3= input.GetDim(2); 
for (int i=0;i<nl;i++) { 
for (int j=0;j<n2;j++) { 
for (int k=0;k<n3;k++) { 
//coeff 是 可 训练 的 权重 ，sw、sh 是 采样 窗口 尺寸 
sub[i] [j/sw] [k/sh] += input([i] [j] [k]*coeff[i]; 


for (i=0;i<nl;i++) { 

// 加 上 偏 移 量 

sum[i] = subl[i] + bias[i]; 
output = Sigmoid(sum); 


子 采 样 层 的 反馈 运算 的 核心 代码 为 : 


SubSamplingLayer: :bprop (input,output,in dx,out _ dx) 


{ 


// 梯 度 通过 Dsigmoiq 反 传 
sum dx = DSigmoid(out dx); 
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// 计 算 bias 和 coeff 的 梯度 
Eor (4=07i<nlratt) + 
coeff dx[i] = 0; 
bias dx[i] = 0; 
for (j=0;j<n2/sw;j++) 
for (k=0;k<n3/sh;k++) { 
Coeff dx[i] += sub[j] [k]*sum dx[i] [j][k]; 
bias dx[i] += sum dx[i][j][k]); 
} 
} 
for (i=0;i<nl;i++) { 
for (j=0;j<n2;j++) 
for (k=0;k<n3;k++) { 
in dx[i][j][k] = coeff[i]*sum dx[i][j/sw][k/sh]; 
} 


} 
全 连接 层 的 学 习 与 传统 的 神经 网 络 的 学 习 方 法 类 似 , 也 使 用 BP 算法 , 此 处 不 再 歼 述 。 


4.9 AdaBoost 方 法 


AdaBoost (Adaptive Boosting ) 方法 由 美国 加 利 福 尼 亚 大 学 (University of California, 
San Diego) 的 Yoav Freund 和 美国 普林斯顿 大 学 (Princeton University) 的 Robert E. 
Schapire 于 1995 年 在 ECCLT 会 议 上 提出 ， 该 方法 深入 挖掘 弱 分 类 器 能 力 ， 不 需要 预先 
知道 弱 分 类 器 的 误差 ， 得 到 的 强 分 类 器 的 分 类 精度 依赖 于 所 有 弱 分 类 器 的 分 类 精度 。 对 
应 论文 为 4 decision-theoretic generalization of on-line learning and an application to 


boosting。 


1. 基本 原理 


AdaBoost 方 法 是 一 种 达 代 过 程 , 通过 不 断 训 练 弱 分 类 器 ,构成 强 分 类 器 ， 从 而 提高 
数据 分 类 能 力 。AdaBoost 方法 的 训练 过 程 中 ， 初 始 阶段 每 个 样本 具有 相同 的 对 应 权重 ， 
在 此 样本 分 布下 训练 出 一 个 弱 分 类 器 。 然 后 针对 分 类 错误 的 样本 ， 加 大 其 对 应 的 权重 ， 
针对 分 类 正确 的 样本 则 降低 其 权重 ， 使 前 一 步 被 分 错 的 样本 得 到 突显 ， 获 得 新 的 样本 分 
布 。 在 新 的 样本 分 布下 ， 再 次 对 样本 进行 训练 ， 又 得 到 一 个 弱 分 类 器 。 依 次 类 推 ， 经 过 
了 次 循环 ， 得 到 了 个 弱 分 类 器 ， 将 这 了 个 弱 分 类 器 按 一 定 的 权重 组 合 ， 得 到 最 终 想 要 的 
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强 分 类 器 。 

AdaBoost 方法 是 经 过 调整 的 Boosting 算法 ， 能 够 对 弱 学 习 得 到 的 弱 分 类 器 的 错误 
进行 适应 性 调整 。 相 对 于 Boosting 方法 ，AdaBoost 方法 使 用 加 权 后 选取 的 训练 数据 代 
替 随 机 选取 的 训练 样本 ， 训 练 的 关键 是 针对 比较 难 分 的 训练 数据 样本 ; 在 联合 弱 分 类 器 
时 ， 使 用 加 权 投 票 机 制 代 替 平 均 投票 机 制 。 通 过 上 述 处 理 ， 分 类 效果 好 的 弱 分 类 器 将 获 
得 较 大 的 权重 ， 而 分 类 效果 差 的 分 类 器 则 权重 较 小 。 

2. AdaBoost 的 实现 

给 定 训练 集 (2,3)…,(xwspw) ,其 中 ye{1,- 了 } ,表示 的 正确 类 别 标签 , i=1…,N 。 

在 训练 集 上 样本 的 初始 分 布 为 : 


D()= 方 
对 1=1…,T ， 计 算 弱 分 类 器 : 
用 :天 一 人 1 
该 弱 分 类 器 在 分 布 D, 上 的 误差 为 : 
= pn (h (x) ») 


计算 该 弱 分 类 器 的 权重 : 


更 新 训练 样本 的 分 布 : 
D (exp(-orh (%)) 
Z 


1 


Du (= 


其 中 也 为 归 一 化 常数 。 
最 后 的 强 分 类 器 为 : 


Hi (2) = so 六 ex] 


3. AdaBoost 的 权 值 
对 于 每 次 迭代 要 把 错 分 点 的 权 值 变 大 ，AdaBoost 的 表达 式 为 : 
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Hs () sien Soho) 


其 中 的 a 表示 权 值 ， 是 关于 误差 的 表达 式 : 
-2 
4 6 


导致 w 变 得 很 小 ， 最 终 这 个 分 类 器 在 整个 混合 分 类 器 的 权 值 变 低 。 这 样 ， 让 优秀 分 类 器 
的 权 值 更 高 ， 一 般 分 类 器 的 权 值 更 低 。 

4. AdaBoost 的 流程 

AdaBoost 方法 的 实现 流程 如 下 。 

E01 给 定 训练 样本 集 S， 其 中 六 和 了 分 别 为 正 样 本 和 负 样 本 ;7 为 训练 的 最 大 
循环 次 数 ， 

E30 初始 化 样本 权重 为 1n， 即 为 训练 样本 的 初始 概率 分 布 ， 

CT03 循环 迭代 多 次 ， 

口 更 新 样本 权重 和 分 布 ; 

口 寻找 当前 分 布下 的 最 优 弱 分 类 器 ; 

口 计算 弱 分 类 器 误差 率 ; 

口 选取 合适 阅 值 ， 使 误差 最 小 。 

04 聚合 多 次 训练 的 弱 分 类 器 

经 了 次 循环 后 ， 得 到 了 个 弱 分 类 器 ， 按 更 新 的 权重 登 加 ， 最 终 得 到 强 分 类 器 。 

5. AdaBoost 的 伪 代 码 

AdaBoost 方法 的 实现 伪 代 码 如 下 。 


已 知 : (4, 力 ),…,(3, 世 )， 其 中 x eX,y,eY={-1,+l} 


初始 化 : D(i)=1/m 


For 下 二 二 
利用 分 布 D, 训 练 弱 分 类 器 。 
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得 到 弱 分 类 器 不- 人 1+H] ， 对 应 的 误差 为 


2 =Pr,p, [h(x)#»] 


DO fe yh(s)=n 
De 上 hi) 
本 D, (i)exp(-Q,»,h (%)) 

Zz 


t 


其 中 ,ZZ 为 归 一 化 因子 。 


输出 最 终 的 分 类 器 : 
H(x)= vin (Soh 的 
6. 算法 特点 


AdaBoost 方法 是 一 种 高 精度 的 分 类 器 , 可 以 使 用 各 种 方法 构建 子 分 类 器 ， 而 且 弱 分 
类 器 构造 简单 ， 不 需要 进行 特征 筛选 ， 也 不 用 担心 过 度 拟 合 。 

AdaBoost 方法 可 用 于 二 分 类 或 多 分 类 的 应 用 场景 , 可 用 于 特征 选择 , 只 需要 增加 新 
的 分 类 器 ， 不 需要 变动 原 有 分 类 器 。 是 一 种 实现 和 应 用 很 简单 的 算法 ， 通 过 组 合 弱 分 类 
器 得 到 强 分 类 器 ， 分 类 错误 率 上 界 随 着 训练 的 增加 而 稳定 下 降 ， 不 会 过 拟 合 ， 适 合 于 各 
种 分 类 场景 。 

在 AdaBoost 方法 训练 过 程 中 ， 每 次 迭代 都 会 对 分 类 错误 的 样本 进行 加 权 ， 当 出 现 
多 次 分 类 错误 以 后 ， 它 们 的 权重 过 大 ， 进 而 影响 误差 的 计算 和 分 类 器 的 挑选 ， 使 分 类 器 
的 精度 下 降 ， 即 典型 退化 问题 。 这 些 样本 往往 是 靠近 分 类 边界 的 样本 ， 称 为 临界 样本 。 
临界 样本 使 得 训练 的 退化 问题 加 剧 ， 但 也 是 提升 分 类 器 精度 的 必需 品 。 

在 某 些 应 用 〈 如 车 牌 检测 处 理 ) 中 ， 现 实 中 车 牌 的 数目 要 远 远 小 于 非 车 牌 数 ， 负 样 
本 的 范围 非常 广 ， 样 本 集 往 往 无 法 精确 表示 ， 正 负 样 本 的 数量 差距 很 大 ， 分 类 器 会 关注 
大 容量 样本 ， 导 致 分 类 器 不 能 较 好 地 完成 区 分 小 类 样本 的 目的 。 数 据 不 平衡 问题 是 
AdaBoost 方法 的 一 个 典型 难题 。 
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4.10 ”模拟 退火 方法 


模拟 退火 方法 (Simulated Annealing Algorithm，SAA) 是 IBM 的 S.Kirkpatrick 等 人 
于 1983 年 在 研究 组 合 优化 的 基础 上 ， 根 据 和 迭代 改进 思想 提出 的 。 它 是 一 种 通用 概率 算 
法 ， 用 来 在 固定 时 间 内 寻求 在 一 个 大 的 搜寻 空间 内 找到 最 优 解 。 

在 某 个 定义 域 8 内 ， 求 某 个 函数 x) 的 最 小 值 ， 形 式 化 为 Min Ax)，x 属于 8。 在 搜 
索 极 值 过 程 中 ， 如 果 过 早 结束 ， 就 会 陷入 局 部 最 优 情 况 ， 为 了 跳出 局 部 最 优 ， 引 入 一 个 
接受 概率 P 和 参数 T。 在 当前 解 的 邻 域 内 选择 一 点 ， 如 果 比 当前 解 好 ， 则 总 是 接受 它 ; 
如 果 没 有 当前 解 好 ， 则 以 接受 概率 接受 它 。 接 受 概率 中 的 T 随 着 时 间 从 大 到 小 变化 ( 冷 
却 温度 )， 一 开始 T 值 很 大 ， 近 似 于 随机 搜索 ， 随 机 选择 当前 解 ， 后 来 很 小 ， 近 似 于 
普通 搜索 法 ， 选 择 最 优 作 为 当前 解 。 

1. 礁 山 方法 

扑 山 方法 是 一 种 简单 的 贪心 搜索 算法 , 每 次 从 当前 解 的 临近 解 空 间 中 选择 一 个 最 优 
解 作 为 当前 解 ， 直 到 达到 一 个 局 部 最 优 解 。 

疏 山 方法 的 实现 很 简单 ， 主 要 缺点 是 会 陷入 局 部 最 优 解 ， 而 不 一 定 能 搜索 到 全 局 最 
优 解 。 如 图 4.42 所 示 ， 假 设 C 点 为 当前 解 ， 息 山 方法 搜索 到 A 点 这 个 局 部 最 优 解 就 会 
停止 搜索 ， 因 为 在 A 点 无 论 向 哪个 方向 小 幅度 移动 都 不 能 得 到 更 优 的 解 。 


图 4.42 ”爬山 方法 示意 图 


2. 模拟 退火 思想 

爬山 方法 是 完 完全 全 的 贪心 法 ,每 次 都 鼠 目 寸 光 地 选择 一 个 当前 最 优 解 ， 因 此 只 能 
搜索 到 局 部 最 优 值 。 模 拟 退火 方法 也 是 一 种 贪心 算法 ， 但 是 搜索 过 程 引 入 随机 因素 。 以 
一 定 的 概率 来 接受 一 个 比 当前 解 要 差 的 解 ， 有 可 能 会 跳出 这 个 局 部 的 最 优 解 ， 达 到 全 局 
最 优 解 。 以 图 4.42 为 例 ， 模 拟 退 火 方法 在 搜索 到 局 部 最 优 解 A 后 ， 会 以 一 定 的 概率 接 
受到 了 的 移动 。 经 过 几 次 不 是 局 部 最 优 的 移动 后 会 到 达 D 点 ,于 是 就 跳出 局 部 最 大 值 A。 

模拟 退火 思想 描述 为 : 


口 若 AY(i+1))>=AY(i))， 即 移动 后 得 到 更 优 解 ， 则 总 是 接受 该 移动 ; 
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口 车.J(Y(GHD)<JYGC))， 即 移动 后 的 解 比 当前 解 要 差 ， 则 以 一 定 的 概率 接受 移动 ， 
而 且 这 个 概率 随 着 时 间 推 移 逐 渐 降 低 ， 趋 向 稳定 。 


这 里 对 一 定 的 概率 的 计算 参考 了 金属 治 炼 的 退火 过 程 ， 根 据 热力 学 原理 ， 在 温度 为 
T 时， 出 现 能 量 差 为 dE 的 降温 的 概率 为 P(dE)， 表 示 为 : 
P(dE)=exp(dE/(k7T)) 


其 中 , 上 是 常数 ，exp 表示 自然 指数 ， 且 dE<0。 温 度 越 高 ， 出 现 一 次 能 量 差 为 dE 
的 降温 概率 越 大 ; 温度 越 低 ， 出 现 降 温 概率 越 小 。 由 于 dE<0，dE/kT <0， 所 以 P(dE) 的 
函数 取 值 范围 是 (0,1)。 

随 着 温度 T 的 降低 ，P(dE) 会 逐渐 降低 。 将 一 次 向 较 差 解 的 移动 看 做 一 次 温度 跳 变 
过 程 ， 以 概率 P(dE) 接 受 这 样 的 移动 。 

3. 模拟 退火 方法 

模拟 退火 方法 所 得 解 依 据 概率 收敛 到 全 局 最 优 解 。 首 先 建立 数学 模型 ,包括 要 确定 
解 空 间 ， 确 立 目 标 函 数 和 初始 解 ， 然 后 在 产生 新 解 时 要 符合 某 种 接受 机 制 ， 最 后 由 接受 
准则 使 新 解 更 优 或 是 恶化 。 

数学 模型 由 解 空间 、 目 标 函 数 和 初始 解 3 部 分 组 成 。 

(1) 解 空间 

当 所 有 可 能 解 均 为 可 行 解 时 ， 解 空间 为 可 能 解 的 集合 ;针对 不 可 行 解 ， 一 种 情况 是 
限定 解 空 间 为 所 有 可 行 解 集 ， 另 一 种 方法 为 允许 包含 不 可 行 解 ， 但 在 目标 函数 中 通过 罚 
函数 排除 不 可 行 解 。 

(2) 目标 函数 

目标 函数 是 从 解 空间 到 某 个 数 集 的 映射 ， 表 示 为 对 优化 目标 的 量化 描述 ， 应 正确 体 
现 问题 的 整体 优化 要 求 , 并 且 需 便于 计算 , 当 解 空间 包含 不 可 行 解 时 还 应 包括 罚 函 数 项 。 

(3 ) 初始 解 

算法 迭代 的 起 点 。 模 拟 退 火 方法 是 一 种 最 终 解 , 不 强烈 依赖 于 初始 数据 的 健壮 算法 ， 
因此 可 随机 选取 初始 解 。 
新 解 的 产生 和 接受 流程 包括 4 个 步骤 : 首先 ， 按 某 种 随机 方法 由 当前 解 产 生 一 个 新 
解 ， 通 常 利用 简单 变换 产生 ， 如 部 分 元 素 的 置换 、 互 换 或 反 演 等 ， 将 可 能 产生 的 新 解 作为 
当前 解 的 邻 域 ; 接着 ， 由 变换 的 改变 部 分 计算 新 解 伴随 的 目标 函数 差 ; 然后 ， 根 据 接受 原 
则 ， 即 新 解 是 否 更 优 或 恶化 但 满足 Metropolis 准则 ， 判 断 是 否 接受 新 解 ， 并 且 还 需 判 断 其 
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解 的 可 行 性 ， 最 后 ， 满 足 接 受 准 则 时 进行 当前 解 和 目标 函数 值 的 迭代 ， 和 否则 舍弃 新 解 。 
4. 模拟 退火 方法 的 伪 代 码 
模拟 退火 方法 的 算法 伪 代 码 为 : 
/* J(y) : 在 状态 y 时 的 评价 函数 值 
* Y(i) : 表示 当前 状态 
* Y(i+1) : 表示 新 的 状态 
* r; 用 于 控制 降温 的 快慢 
* T: 系统 的 温度 ， 系 统 初始 应 该 要 处 于 一 个 高 温 的 状态 
* T_min: 温度 的 下 限 ， 若 温度 T 达 到 T_min， 则 停止 搜索 
RA 
While WE T > To min 
{ 
AB. = A EERE Sr 
if ( dE >= 0 ) // 表 达 移 动 后 得 到 更 优 解 ， 则 总 是 接受 移动 
Y(i+1l) = Y(i); // 接 受 从 Y(i) 到 Y(i+1) 的 移动 
Else 
| 
// 函 数 dE/T 越 大 ， 则 exp (dE/T) 也 越 大 
2 (expl( dE/T) > random( DO YYy) 
Y(i+l) = Y(i); // 接 受 从 Y(i) 到 Y(i+1) 的 移动 
3 
T = 上 * T; // 降 温 退 火 ，0<r<1。r 越 大 ， 降 温 越 慢 
/* 车 过 大 ， 则 搜索 到 全 局 最 优 解 的 可 能 性 会 较 高 ， 但 搜索 过 程 较 长 。 若 = 过 小 ， 则 搜索 
过 程 会 很 快 ， 但 可 能 会 达到 局 部 最 优 值 */ 
} 
5. 算法 特点 
与 局 部 搜索 方法 相 比 ， 模 拟 退 火 方法 可 在 较 短 时 间 里 求 得 更 优 近 似 解 。 允 许 任意 选 
取 初 始 解 和 随机 数 序 列 ， 能 得 出 较 优 近似 解 ， 求 解 优化 问题 的 前 期 工作 量 大 大 减少 。 在 
可 能 影响 模拟 退火 方法 实验 性 能 的 诸多 因素 中 ， 问 题 规模 n 的 影响 最 为 显著 ，n 的 增 大 
导致 搜索 范围 的 绝对 增 大 ， 会 使 CPU 时 间 增 加 ;而 对 于 解 空间 而 言 ， 搜 索 范围 又 因 m 
的 增 大 而 相对 减 小 , 引起 解 质量 下 降 , 但 SAA 的 解 和 CPU 时 间 均 随 n 增 大 而 趋 于 稳定 ， 
不 受 初始 解 和 随机 数 序列 的 影响 。 该 方法 能 应 用 于 多 种 优化 问题 。 
模拟 退火 方法 是 一 种 随机 算法 ， 并 不 一 定 能 找到 全 局 最 优 解 ， 可 以 比较 快 地 找到 问 
题 的 近似 最 优 解 。 如 果 参 数 设置 得 当 ， 模 拟 退 火 方 法 搜索 效率 比 穷 举 法 要 高 。 
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模拟 退火 方法 返回 一 个 高 质 近 似 解 的 时 间 花 费 较 多 ， 当 问题 规模 不 可 避免 地 增 大 
时 ， 难 于 承受 的 运行 时 间 将 使 算法 丧失 可 行 性 。 选 择 适 当 的 邻 域 结构 和 随机 数 序列 可 以 
提高 解 质 并 缩减 运行 时 间 ， 这 需要 大 量 试验 。 选 择 合理 的 冷却 进度 表 可 使 算法 的 执行 过 
程 更 有 效 。 

模拟 退火 方法 的 控制 参数 对 算法 性 能 有 一 定 的 影响 , 没有 一 个 适合 各 种 问题 的 参数 
选择 方法 ， 只 能 依赖 于 具体 问题 进行 确定 。 


4.11 遗传 方法 


遗传 方法 〈Genetic Algorithm) 起 始 于 20 世纪 60 年 代 ， 由 美国 密 吹 根 大 学 的 John 
Holland 等 提出 ， 也 称 进 化 方法 。 它 是 受 达尔 文 进化 论 的 启发 ， 借 鉴 生物 进化 过 程 而 提 
出 的 一 种 启发 式 搜索 方法 。 

1. 基本 原理 

遗传 方法 的 重要 概念 如 下 。 

口 染色 体 ( Chromosome ): 生物 细胞 中 含有 的 一 种 微小 的 丝 状 化 合 物 ， 是 遗传 物 
质 的 主要 载体 ， 由 多 个 遗传 因子 (基因 ) 组 成 。 

口 遗传 因子 (gene): DNA 长 链 结构 中 占有 一 定位 置 的 基本 遗传 单位 ， 也 称 基 因 ， 
生物 的 基因 根据 物种 的 不 同 而 多 少 不 一 。 

口 个 体 (individual ): 染色 体 带 有 特征 的 实体 。 

口 种 群 (population ) 染色 体 带 有 特征 的 个 体 的 集合 。 

口 进化 (evolution ): 生物 在 其 延续 生命 的 过 程 中 ， 逐渐 适应 其 生存 环境 ， 使 品质 
不 断 得 到 改良 。 生 物 的 进化 是 以 种 群 形式 进行 的 。 

口 适应 度 (fitness ): 度量 某 个 物种 对 于 生存 环境 的 适应 程度 。 

口 选择 (selection ): 指 以 一 定 的 概率 从 种 群 中 选择 若干 个 体 的 操作 。 

口 变异 (musation ): 很 小 的 概率 产生 的 某 些 复制 差错 ; 亲 代 和 子 代 之 间 ， 子 代 和 
子 代 的 不 同 个 体 之 间 总 有 些 差异 ， 变 异 是 随机 发 生 的 。 

口 编码 (coding): DNA 中 遗传 信息 在 一 个 长 链 上 按 一 定 的 模式 排列 ， 进 行 遗 传 编 
码 。 遗 传 编码 可 以 看 成 是 从 表现 型 到 遗传 子 型 的 映射 。 

口 解码 (decoding ): 从 遗传 子 型 到 表现 型 的 映射 。 


如 图 4.43 所 示 , 遗传 方法 是 从 代表 问题 可 能 潜在 解 集 的 一 个 种 群 开始 的 。 该 种 群 由 
经 过 基因 编码 的 一 定数 目的 个 体 组 成 。 初 代 种 群 产 生 之 后 ， 按 照 适 者 生存 、 优 胜 劣 汰 的 
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原则 ， 逐 代 进 化 产生 出 越 来 越 好 的 近似 种 ， 即 在 每 一 代 中 ,根据 问题 域 中 个 体 适应 度 大 
小 挑选 个 体 ， 并 借助 自然 遗传 学 的 遗传 算 子 进行 组 合 交叉 和 变异 ,产生 出 代表 解 的 解 集 
种 群 。 这 个 过 程 将 导致 种 群像 自然 进化 一 样 ， 后 生 代 种 群 比 前 代 更 加 适应 环境 ， 末 代 种 
群 中 的 最 优 个 体 经 过 解码 可 以 作为 问题 近似 最 优 解 。 


创建 随机 种 群 
;| 对 每 个 解 逐 一 进行 排序 


| 所 有 解 的 表现 \\W 
LE 


图 4.43 ”遗传 方法 实现 流程 


遗传 方法 模拟 自然 选择 和 遗传 中 发 生 的 复制 、 交 叉 和 变异 等 现象 ， 从 任 一 初始 种 群 
出 发 ， 通 过 随机 选择 、 交 叉 、 变 异 操作 ， 逐 步 淘汰 掉 适 应 度 函 数值 低 的 解 ， 增 加 适应 度 
函数 值 高 的 解 , 产生 一 群 更 适合 环境 的 个 体 , 使 群体 进入 到 搜索 空间 中 越 来 越 好 的 区 域 ， 
这 样 一 代 一 代 地 不 断 繁衍 进化 , 最 后 收敛 到 一 群 最 适合 环境 的 个 体 , 求 得 问题 的 最 优 解 。 

(1) 编码 方法 的 设计 

Holland 提出 的 遗传 方法 利用 二 进 制 编码 表现 个 体 遗 传 基因 类 型 ， 使 用 的 编码 符号 


集 由 二 进 利 


符号 0 和 1 组 成 ， 因 此 将 遗传 基因 表现 为 二 进 制 符号 串 。 其 优点 是 编 解码 操 


作 简单 ， 交 叉 、 变 异 等 遗传 操作 便于 实现 。 缺 点 是 不 便于 反映 所 求 问题 的 特定 性 质 ， 由 
于 遗传 方法 的 随机 性 而 使 其 局 部 搜索 能 力 较 差 ， 对 于 一 些 多 维 、 高 精度 要 求 的 连续 函数 


优化 ， 二 进 


FE 制 编码 进行 离散 化 时 存在 映射 误差 ， 如 果 个 体 编码 串 较 短 ， 可 能 不 满足 精度 
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要 求 ， 如 果 个 体 编码 较 长 ， 虽 然 能 提高 精度 ， 但 却 导 致 搜索 空间 扩大 ， 降 低 整 体 性 能 。 
为 提高 遗传 方法 的 局 部 搜索 能 力 ， 后 来 又 产生 了 格雷 码 等 编码 方法 。 

遗传 方法 的 进化 过 程 建立 在 编码 基础 上 , 编码 方法 对 搜索 能 力 和 种 群 多 样 性 等 性 能 
影响 很 大 ， 壁 如 二 进 制 编码 搜索 能 力 强 ， 而 种 群 多 样 性 弱 ， 浮 点 编码 正好 相反 。 

根据 具体 问题 确定 待 寻 优 的 参数 ， 对 每 个 参数 确定 它 的 变化 范围 并 用 二 进 制 表示 


b 
QT nn + Fm T(x in ), 9 [Cinin, Grmax ] 
5 为 m 位 二 进 制 数 ，m 在 满足 精度 要 求 下 应 尽量 小 。 
将 所 有 表示 参数 的 二 进 制 数 串 接 起 来 组 成 二 进 制 字符 串 ， 每 一 位 只 能 取 值 0 或 1， 
该 字符 串 即 为 一 串 方法 的 操作 对 象 。 


浮 点 编码 对 个 体 X 的 第 p 个 基因 进行 变异 操作 。 
ypCrpP)=YO+N(0O) 


其 中 ，N 为 高 斯 噪声 。 

可 见 浮 点 数 编码 的 变量 可 以 任意 小 ， 并 且 只 要 变异 量 足够 小 , 产生 的 新 个 体 可 以 与 
父 个 体 充分 接近 。 而 二 进 制 编码 的 变异 操作 不 能 保证 父 个 体 与 新 个 体 充 分 接近 ， 种 群 稳 
定性 比 浮 点 差 。 

(2 ) 适应 度 函 数 的 选取 

遗传 方法 在 进化 搜索 中 主要 以 适应 度 函 数 为 依据 , 利用 种 群 中 每 个 个 体 的 适应 度 值 
进行 搜索 ， 基 本 不 利用 外 部 信息 。 因 此 适应 度 函 数 的 选取 至 关 重 要 ， 直 接 关 系 到 收敛 速 
度 以 及 能 和 否 找到 最 优 解 。 通 过 对 目标 函数 值 域 的 某 种 映射 变换 ， 可 以 成 为 适应 度 的 尺度 
变换 。 

适应 度 函 数 需 满足 以 下 条 件 : 单 值 、 连 续 、 非 负 、 最 大 化 、 计 算 量 小 、 通 用 性 强 。 

直接 以 待 求 解 的 目标 函数 转化 为 适应 度 函 数 ， 若 目标 函数 为 最 大 化 问题 ， 则 


Fi( f(s)=7() 
若 目 标 函 数 为 最 小 化 问题 ， 则 
Fu (0) =-7(°) 


该 适应 度 函 数 简单 、 直 观 ， 但 有 两 个 缺陷 ， 其 一 是 可 能 不 满足 概率 非 负 要 求 ; 其 二 
是 某 些 待 求 解 的 函数 在 函数 值 分 布 上 相差 很 大 , 平均 适应 度 可 能 不 利于 体现 种 群 的 平均 
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性 ， 影 响 方法 性 能 。 
若 目 标 函 数 为 最 小 问题 ， 则 


mv- 人 WE 
式 中 Caw 为 AV) 的 最 大 值 估计 。 反 之 ， 则 


ff-emns 7CD>cm 
mv-| 
Cam 为 Ka) 的 最 小 值 估计 。 


该 方法 是 第 一 种 方法 的 改进 ， 称 为 界限 构造 法 ， 但 “mex 与 Cmin 的 构造 与 选择 困难 。 
若 目标 函数 取 为 最 小 问题 ， 则 


1 
UO c20,c+f(x)>0 
若 目 标 函 数 为 最 大 问题 ， 则 
下 _ 
AU ON) = Tre c>0,c- f(x)>0 
c 为 目标 函数 界限 的 保守 估计 值 。 
(3 ) 适应 度 函 数 的 尺度 变换 
A. 线性 变换 法 
f=axf+pB 


c 和 /的 确定 有 多 种 方法 , 但 是 原 适应 度 的 平均 值 要 等 于 标定 后 的 适应 度 平均 值 ， 以 
保证 适应 度 为 平均 值 的 个 体 在 下 一 代 的 期 望 复制 数 为 1。 

变换 后 的 适应 度 最 大 值 应 等 于 原 适应 度 平均 值 的 最 大 倍数 ， 以 控制 适应 度 最 大 的 个 
体 在 下 一 代 中 的 复制 数 。 指 定 倍数 Cmault 可 在 1.0~2.0 范围 内 。 即 根据 上 述 条 件 可 确定 
线性 比例 系数 : 


Hi'= Gin fev 
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B. 圭 函 数 变换 法 


C. 指数 变换 法 
f=e™ 


这 种 变换 法 来 源 于 模拟 退火 过 程 ， 系 数 C 决定 复制 的 强制 性 ， 其 值 越 小 ， 复 制 强度 
就 越 趋向 于 那些 具有 最 大 适应 度 的 个 体 。 

(4) 选择 过 程 

选择 过 程 的 第 一 步 是 计算 适应 度 。 在 被 选中 集中 的 每 个 个 体 具有 一 个 选择 概率 ， 这 
个 选择 概率 取决 于 种 群 中 个 体 的 适应 度 。 

按 比例 的 适应 度 分 配 又 称 为 选择 的 蒙特 卡 罗 法 , 利用 比例 于 各 个 个 体 适应 度 的 概率 
决定 其 子孙 的 遗留 可 能 性 。 


上 


.= 


[Ms 
ys 


其 中 ，M 为 个 体 总 数目 。 

基于 排序 的 适应 度 分 配 为 种 群 按 目 标 值 进行 排序 。 适 应 度 仅仅 取决 于 个 体 在 种 群 中 
的 序 位 ， 而 不 是 实际 的 目标 值 。 排 序 方法 克服 比例 适应 度 计 算 的 尺度 问题 ， 可 通过 引入 
种 群 均匀 尺度 来 控制 选择 压力 。 排 序 方法 表现 出 有 效 的 鲁 棒 性 。 

设 定 N 为 种 群 大 小 ，Pos 为 个 体 在 种 群 中 的 序 位 ，SP 为 选择 压力 , 个 体 的 适应 度 可 
以 计算 如 下 。 

线性 排序 : 


FiPos) =2-SP+ 2 Ee) 


SP e[1.0,2.0] 


非 线 性 排序 : 
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Pos-l 


Fit(Pos)= a 


其 中 对 是 下 列 多 项 式 方程 的 根 : 


(SP-DX +TSPY +..+SPY+TSP=0， SPe[l.0,N—2.0] 


(5) 基因 交叉 重组 

基因 交叉 〈 重 组) 是 把 两 个 父 个 体 的 部 分 结构 进行 替换 而 重组 产生 下 一 代 新 的 子 个 
体 的 操作 。 基 因 重 组 是 遗传 方法 获得 新 优良 个 体 的 重要 手段 。 

根据 编码 表示 的 不 同 ， 可 以 有 以 下 方法 。 

口 实 值 重组 : 离散 重组 、 中 间 重 组 、 线 性 重组 、 扩 展 线性 重组 。 

口 二 进 制 交叉 : 单 点 、 多 上 点、 均匀、 洗 牌 和 缩小 代理 等 交叉 。 

离散 重组 在 个 体 之 间 交 换 变量 值 ， 考 虑 如 下 3 个 变量 的 个 体 : 

父 个 体 1 1 

父 个 体 2 123 4 34 

子 个 体 中 每 个 变量 可 按 等 概率 随机 的 挑选 父 个 体 ， 如 : 

子 个 体 1 2 浊 、5 

村 个 休 2 i 六 5 

中 间 重 组 只 适用 于 实 变 量 。 

子 个 体 1= 父 个 体 1t+a〔 父 个 体 2- 父 个 体 1) 

a el[-d,l+d] 

对 于 中 间 重 组 4=0， 一 般 选 择 d=0.25。 


奖 ， 次 : 25: 省 

父 2 123 4 34 

样本 1 0.5 1.1 -0.1 

样本 2 0.1 0.8 0.5 

子 个 体 1 12+0.5 (123-12) =67.5 
25+1.1 (4-25) =1.9 
5+ (-0.1) (34-5) =2.1 
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线性 重组 与 中 间 重 组 相似 ， 也 是 对 所 有 变量 值 有 一 个 a 值 。 

信 及 站 5 

父 2 123 4 34 

样本 1 0.5 

样本 2 0.1 

子 1: 12+0.5(123-12)=67.5 25+0.5(4-25)=14.5 5+0.5(34-5)=19.5 
子 2: 12+0.1(132-12)=23.1 25+0.1(4-25)=22.9 5+0.1(34-5)=7.9 


(6) 变异 过 程 
子 个 体 变量 以 很 小 的 概率 或 步 长 产生 变异 ， 该 概率 或 步 长 与 种 群 大 小 无 关 ， 与 变量 
个 数 成 反比 。 对 于 单 峰 函数 而 言 ，1/n 是 最 好 的 平均 选择 ， 并 且 通 过 在 开始 时 增加 变异 
率 ， 结 束 时 减 小 变异 率 可 以 改善 搜索 速度 。 对 于 多 峰 函 数 而 言 ， 其 变异 率 的 自 适应 过 程 
是 很 有 益 的 选择 。 变 异 本 身 是 一 种 局 部 随机 搜索 ,与 选择 /重组 算 子 结合 在 一 起 ,使 遗传 
方法 具有 局 部 的 随机 搜索 能 力 ， 同 时 使 遗传 方法 保持 种 群 的 多 样 性 ， 以 防止 出 现 非 成 熟 
收敛 。 变 异 操作 中 变异 率 不 能 太 大 ， 否 则 就 退化 为 纯 随 机 搜索 。 
A. 实 值 变 异 
并 三 将 055 
A= 2 
工 为 变量 的 取 值 范围 ，a(i) 以 概率 1/m 取 值 1， 以 1-1/m 取 值 0。 
B. 二 进 制 变异 
此 时 变异 即 意味 着 翻转 ， 其 变异 位 是 随机 确定 的 。 
变异 前 ”0110011010 
变异 后 ”0111011010 


另外 还 有 换 位 、 复 制 、 插 入 、 删 除 变 异 。 
2. 实现 方法 

(1) 遗传 方法 流程 

如 图 4.44 所 示 ， 遗 传 方法 的 实现 流程 如 下 。 


116 视觉 大 数据 基础 与 应 用 


0 编 和 


图 4.44 遗传 方法 的 实现 流程 


加 


遗传 方法 在 进行 搜索 之 前 ， 首 先 将 解 空间 的 数据 表示 成 遗传 空间 的 基本 串 结构 数据 
类 型 ， 不 同 的 组 合 就 构成 不 同 的 点 。 

常用 固定 长 度 的 二 进 制 符号 串 。 

ETI02 初始 种 群 的 形成 


随机 生成 N 


个 初始 串 数据 ， 每 个 串 数 据 构成 一 个 个 体 ， 由 N 个 串 数据 构成 一 个 群 


体 。 以 该 群体 作为 初始 点 开始 迭代 。 
群体 大 小 一 般 取 20~100。 
C303 适应 度 检测 


适应 度 就 是 生物 个 体 对 环境 的 适应 程度 , 适应 度 函 数 是 对 问题 中 的 个 体 对 象 所 设计 
的 表征 其 优 劣 的 测度 。 

根据 具体 问题 计算 P(W) 适 应 度 。 

选择 


将 选择 算 子 作用 于 群体 , 把 优化 个 体 直接 遗传 到 下 一 代 。 选择 算 子 又 称 为 再 生 算 子 ， 
如 按 比 例 的 适应 度 方法 、 基 于 排序 的 适应 度 方法 、 轮 盘 赌 选 择 、 随 机 遍历 抽样 、 局 部 选 


择 、 截 断 选择 。 
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常 使 用 比例 选择 算 子 。 

EET05 交叉 

遗传 方法 中 起 核心 作用 的 就 是 交叉 算 子 , 根据 交叉 率 将 种 群 中 的 两 个 个 体 随机 地 交 
换 某 些 基因 ， 产 生 新 基因 组 合 。 

常 使 用 单 点 交叉 算 子 。 

306 交 异 

变异 算 子 首先 对 群 中 所 有 个 体 以 事先 设 定 的 变异 概率 判断 是 否 进 行 变异 , 然后 对 进 
行 变异 的 个 体 随 机 选择 变异 位 进行 变异 。 

常 使 用 基本 位 变异 算 子 。 

TI07 终止 条 件 判断 

群体 PLD 经 过 选择 、 交 叉 、 变 异 运算 之 后 得 到 下 一 代 群 体 P(t+1)。 

车 (<=T， 则 六 上 1， 转 到 Step3， 和 否则 以 进化 过 程 中 所 得 到 的 具有 最 大 适应 度 个 体 作 
为 最 优 解 输出 ， 终 止 计算 。 

一 般 终止 进化 代数 为 100~500。 


(2) 擅 代 码 
基本 遗传 方法 的 伪 代 码 如 下 。 


Algorithm GRA(Pc, PmyM,G,TD) 

Input: 

Pc: 交叉 发 生 的 概率 

Pm: 变异 发 生 的 概率 

M: 种 群 规模 

G: 终止 进化 的 代数 

Tf: 进化 产生 的 任何 个 体 的 适应 度 函数 超过 Tf， 则 终止 进化 
Initialize: 

初始 化 Pn，Pc，M，G，Tf 等 参数 ; 

随机 产生 第 一 代 种 群 Pop; 

While (个 体 得 分 未 超过 Tf， 或 繁殖 代数 未 超过 6) do 
计算 种 群 Pop 中 每 一 个 体 的 适应 度 F (i) ; 

初始 化 空 种 群 newPop; 

Do 

{ 

根据 适应 度 以 比例 选择 方法 从 种 群 Pop 中 选 出 两 个 个 体 ; 
if ( random(0,1) < Pc ) 

对 两 个 个 体 按 交 叉 概率 Pc 执行 交叉 操作 ; 


if ( random (0,1) < Pm ) 
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对 两 个 个 体 按 变异 概率 Pm 执行 变异 操作 ; 
将 两 个 新 个 体 加 入 种 群 newPop 之 中 ; 

} until ( M 个 子 代 被 创建 ) 

用 newPop 取代 Pop; 

End While 

Output: 最 优 解 。 


3. 算法 特点 


遗传 方法 具有 自 组 织 性 、 自 学 习性 、 自 适应 性 和 并 行 性 ， 不 需要 求 导 计算 或 其 他 辅 
助 知识 ， 只 要 确定 影响 搜索 方向 的 目标 函数 和 对 应 的 适应 度 函 数 ; 转换 规则 强调 概率 而 
非 确定 的 ， 对 给 定 问题 可 产生 多 个 的 潜 存 种 ， 最 终 选 择 可 由 使 用 者 确定 ， 因 此 适合 于 多 
目标 优化 问题 。 

在 遗传 进化 的 初期 通常 会 产生 一 些 超常 个 体 ， 如 果 采 用 比例 选择 法 ， 异 常 个 体 因 竞 
争 力 太 突出 而 控制 选择 过 程 ， 将 影响 方法 的 全 局 优化 进程 。 在 遗传 进化 的 后 期 ， 即 方法 
接近 收敛 时 ， 由 于 种 群 中 个 体 适应 度 较 小 ， 继 续 优化 的 潜能 降低 ， 可 能 获得 某 个 局 部 最 
优 解 。 上 述 问 题 称 为 遗传 方法 的 欺骗 问题 。 当 适应 度 函数 设计 不 合理 时 有 可 能 出 现 该 问 
题 。 

当 种 群 中 个 体 适应 度 非常 相似 时 ， 这 些 个 体 进入 配对 集 的 概率 相当 ， 而 且 交 配 后 得 
到 的 新 个 体 也 不 会 产生 较 大 变化 。 因 此 导致 不 能 有 效 进行 搜索 ， 有 可 能 趋向 于 纯粹 的 随 
机 选择 ， 从 而 使 进化 过 程 陷于 停顿 状态 ， 无 法 找到 全 局 最 优 解 。 针 对 该 问题 ， 可 在 迭代 
过 程 中 用 部 分 优质 的 新 子 个 体 来 更 新 部 分 父 个体 作 为 下 一 代 种 群 ， 即 采用 稳 态 繁殖 。 
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大 规模 人 脸 搜索 系统 


在 海量 视频 和 图 像 数 据 中 ， 可 根据 某 个 人 的 人 脸 图 片 、 画 像 、 监 控 人 像 、 目 击 者 描 
述 等 ， 快 速 查 找 出 该 人 的 相关 视频 和 图 像 ， 然 后 获取 到 其 姓名 、 单 位 、 住 址 、 微 博 、 微 
信 、 爱 好 、 亲 友 等 关联 信息 ， 最 后 统计 出 他 (她 ) 的 社会 关系 、 日 常 行 踪 与 活动 轨迹 ， 
这 就 是 大 规模 人 脸 搜 索 系统 。 

本 章 以 “大 海 捞 针 ” 人 脸 搜 索 系 统 为 例 ， 首 先 介绍 人 脸 检 测 、 人 脸 特 征 提取 、 人 脸 
特征 比 对 等 核心 方法 ,然后 详细 阐述 该 搜索 系统 的 体系 结构 、 关 键 技术 、 实 现 流程 、 伪 
代码 和 性 能 评测 方法 等 ， 最 后 介绍 该 系统 的 性 能 特点 和 使 用 方法 。 


5.1 概述 


当 去 银行 办 理 业务 时 ， 柜 台 服 务 员 总 是 要 求 我 们 首先 出 示 有 效 证 件 ; 当 进 入 办 公 大 
门 时 , 总 是 需要 我 们 先 刷 卡 或 录 指纹 才能 进门 。 在 生活 中 , 我 们 经 常会 遇 到 这 种 明明 “我 
就 在 那里 ” 却 需要 证 明 “ 我 就 是 我 ”的 事情 ， 这 个 问题 一 直 困 扰 着 人 们 ， 无 论 是 古老 的 
签字 画 押 ， 还 是 现代 的 身份 证 或 通行 证 ， 都 在 解决 一 个 问题 :“ 我 是 谁 ” 

小 明 是 个 内 向 、 单 纯 的 小 伙 子 ， 某 天 在 咖啡 馆 里 ， 小 明 对 初次 见面 的 女孩 子 很 有 好 
感 ， 但 是 不 知 如 何 找到 合适 的 话题 。 他 很 想 知道 她 喜欢 什么 。 在 短暂 的 沉闷 之 后 ， 他 用 
手机 拍 下 了 女孩 的 照片 ， 基 于 人 脸 搜 索 到 她 爱好 旅游 和 偶像 明星 ， 小 明 马 上 找到 了 共同 
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话题 ， 开 始 慢 慢 和 对 方 侃侃 而 谈 。 

某 市 发 生 了 一 起 刑事 案件 ， 犯 罪 份子 逃 之 天 天 ,“ 他 在 哪 ” 困 扰 着 人 们 。 从 现场 监 
控 录像 中 ， 办 案 人 员 得 到 嫌疑 人 的 面部 图 像 。 经 过 在 线 监控 系统 的 实时 追踪 ， 在 海量 的 
视频 图 像 中 ， 办 案 人 员 搜 索 到 犯罪 分 子 近 期 的 活动 地 点 ， 并 很 快 将 其 绳 之 以 法 。 

上 述 问 题 的 解决 都 依赖 于 人 脸 搜 索 系 统 。 如 图 5.1 所 示 ， 无 论 在 监控 视频 数据 库 中 
还 是 在 社交 网 络 上 ， 都 存在 海量 的 人 脸 视 频 或 图 像 。 人 脸 搜索 系统 通过 摄像 机 或 视频 监 
控 设 备 等 获取 若干 图 像 或 视频 片段 ， 首 先 利用 计算 机 对 输入 图 像 或 视频 进行 人 脸 检 测 ， 
搜索 图 像 或 视频 中 是 否 存在 人 脸 并 判断 其 位 置 和 大 小 ， 提 取出 人 脸面 部 图 像 ， 然后 根据 
决策 系统 下 达 的 任务 指令 进行 识别 ， 把 人 脸 与 身份 信息 对 应 起 来 ， 或 者 利用 人 脸 对 个 体 
进行 跟踪 定位 ; 接着 与 网 络 系统 或 者 数据 库 相 连接 ， 搜 索 与 该 个 体 相 对 应 的 附属 信息 ， 
如 兴趣 爱好 等 。 决 策 系统 通过 干预 整个 搜索 系统 ， 对 其 进行 反馈 修正 ， 指 导 输 入 图 像 或 
视频 的 选取 与 采集 ， 如 图 5.2 所 示 。 人 脸 搜 索 系 统 涉及 图 像 处 理 、 模 式 识别 、 计 算 机 视 
觉 、 统 计 学 、 人 工 智 能 、 认 知 科学 等 多 个 领域 ， 具 有 广泛 的 应 用 前 景 。 


[| = 全 
-1 
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人 脸 识 别 


人 脸 检 测 


输入 图 像 
或 者 视频 


图 5.2 人 脸 搜 索 系 统 


为 什么 要 以 人 脸 为 载体 发 展 搜索 系统 呢 ? 可 以 从 下 面 几 个 方面 来 理解 。 俗 话说 “ 眼 
睛 是 心灵 的 窗户 ” 根据 人 眼 的 视觉 特性 ， 人 们 通常 对 图 像 中 的 人 脸 区 域 最 感 兴趣 ， 人 
脸 是 人 体 的 一 个 具有 很 强 表征 模式 的 内 在 属性 ， 包 含 年 龄 、 性 别 、 表 情 等 丰富 的 个 体 信 
息 量 ， 具 有 很 强 的 自身 稳定 性 和 个 体 差异 性 ， 与 个 体高 度 结合 、 不 会 被 遗忘 或 丢失 ; 样 
本 采集 方便 、 设 备 成 本 低 ， 较 少 或 不 需要 个 体 的 主动 配合 ， 易 被 用 户 接受 ， 潜 在 的 数据 
资源 丰富 。 因 此 ， 基 于 人 脸 的 搜索 比 传统 的 基于 文字 内 容 的 搜索 更 实用 ， 可 以 广泛 地 应 
用 于 身份 认证 、 安 全 访问 控制 、 视 频 监控 、 内 容 检索 、 人 机 交互 、 孤 寡 老 人 照料 等 各 种 
领域 ， 人 们 还 可 以 通过 人 脸 搜索 查找 特定 的 人 脸 图 片 、 组 织 管理 照片 或 者 寻找 与 哪 位 名 
人 最 像 ， 甚 至 可 以 利用 上 传 的 照片 或 视频 在 社交 网 络 上 发 觉 隐 藏 在 图 片 或 视频 背后 的 社 
会 关系 等 。 

如 图 5.3 所 示 ， 人 脸 搜索 采用 视频 图 像 处 理 、 模 式 识别 、 机 器 学 习 、 视 频 分 析 等 方 
法 ， 通 过 图 像 预 处 理 、 镜 头 检测 、 关 键 帧 提取 、 内 容 关联 、 视 频 语 义 化 等 技术 ， 实 现 面 
向 大 数据 的 特定 人 脸 目 标 查 找 与 定位 。 

大 规模 人 脸 搜 索 技术 改变 了 传统 的 视频 信息 组 织 方式 ， 将 海量 视频 数据 按照 时 间 、 
地 点 、 来 源 等 相关 信息 实现 统一 管理 ， 便 于 查看 、 搜 索 与 维护 。 将 视频 分 析 功 能 进行 整 
合 ， 用 户 使 用 更 方便 ， 系 统 维护 与 升级 更 容易 。 可 根据 用 户 需求 ， 采 用 快速 浏览 、 特 征 
搜索 等 查看 方式 ， 不 仅 节约 人 力 ， 而 且 自动 处 理 方式 能 够 有 效 克 服 人 工 搜索 导致 的 疲劳 
漏 查 、 效 率 低下 等 问题 。 

尽管 需求 性 很 强 、 应 用 范围 很 广 、 商 业 价值 很 高 ， 然 而 目前 没有 成 熟 的 人 脸 搜索 系 
统 。 建 立 和 发 展 人 脸 搜索 系统 具有 如 下 困难 。 
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特征 提取 


图 5.3 ”人 脸 搜索 框架 

1. 小 样本 问题 

在 人 脸 搜索 的 各 个 环节 均 存在 严重 的 小 样本 问题 。 

在 人 脸 检 测 环节 ， 感 兴趣 的 检测 区 域 大 多 数 是 非 人 脸 区 域 ， 人 脸 在 这 里 是 小 样本 
导致 在 训练 过 程 中 训练 器 逐渐 向 非 人 脸 样本 倾斜 。 

在 人 脸 识 别 环节 ， 某 个 个 体 的 带 身份 标签 信息 的 样本 可 能 只 有 几 个 ， 而 我 们 面 对 的 
待 识 别 对 象 却 可 能 是 成 千 上 万 个 ， 基 于 互联 网 的 任何 搜索 面 对 的 数据 库 都 以 亿 为 单位 。 

2. 内 在 复杂 性 

人 脸 在 不 同时 刻 会 出 现 抬 头 、 低 头 、 转 头 、 摇 头 、 睁 眼 、 闭 眼 等 各 种 姿态 ， 会 由 于 
心情 变化 而 伴 有 高 兴 、 发 怒 、 痛 苦 、 忧 伤 等 各 种 表情 ， 会 随 着 年 龄 增长 而 有 青春 疗 、 皱 
纹 ， 会 因为 整容 使 面部 特征 发 生 改变 ， 这 些 都 会 导致 人 脸 搜索 系统 的 准确 度 下 降 。 

3. 外 在 干扰 

人 脸 本 身 的 特征 常常 被 胡须 、 眼 镜 、 头 发 、 帽 子 、 围 由 等 附属 物 所 遮挡 ， 光 照 和 环 
境 条 件 的 改变 ， 摄 像 机 或 视频 监控 设备 采集 图 像 时 电子 原件 噪声 、 人 为 抖动 、 姿 态 旋转 
等 因素 都 可 能 影响 图 像 质量 , 导致 一 人 千 面 , 给 人 脸 搜 索 系 统 的 泛 化 能 力 带 来 巨大 挑战 。 

4. 搜索 速度 

任何 一 个 系统 如 果 不 能 在 人 类 有 限 的 耐心 消耗 完 之 前 给 出 满意 结果 ， 都 是 不 实用 
的 。 速 度 要 求人 脸 搜 索 系 统 能 对 用 户 需求 快速 响应 并 返回 结果 ， 必 须根 据 具体 任务 需求 
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权衡 实时 性 和 准确 度 之 间 的 关系 ， 在 一 定 的 精度 下 加 快 搜索 速度 。 


国内 外 很 多 高 校 和 研究 机 构 都 在 从 事 人 脸 搜索 系统 相关 的 研究 ， 如 麻 省 理工 学 院 


(MIT)、 卡 内 基 梅 隆 大 学 “(CMU)、 南 加 州 大 学 (USC)、 清 华 大 学 、 北 京 大 学 、 亚 洲 


微软 研究 院 、 中 国 科学 院 、Google、Facebook、 百 度 等 。 相 关 论 文 在 国 


际 期 刊 和 会 议 上 


的 发 表 数 量 也 逐年 递增 ， 如 IEEE 的 AFGR (Automatic Face and Gesture Recognition )、 


ICIP (International Conference on Image Processing)、CVPR (Computer Vision and Pattern 


Recognition ) 等 会 议 上 有 近 一 半 的 论文 都 与 人 脸 搜索 有 关 ， 著 名 期 乔 


PAMI (Pattern 


Analysis and Machine Intelligence) 在 1997 年 7 月 和 2011 年 10 月 出 版 了 两 期 人 脸 识别 


专辑 。 


美国 专利 商标 局 于 2011 年 5 月 发 布 了 Google 针对 公众 人 物 的 人 脸 识别 技术 专利 ， 
即 自动 挖掘 公众 人 物 形 象 的 视觉 搜索 应 用 。 如 图 5.4 所 示 ， 通 过 提供 公众 人 物 名 单 和 其 


中 某 个 待 搜索 的 人 员 面 部 图 像 , 该 人 脸 搜 索 系统 可 以 生成 一 个 精确 的 与 


该 面部 图 像 一 致 


的 形象 , 然后 按照 一 定 的 精确 度 判别 该 人 脸 属于 哪个 公众 人 物 , 或 者 是 名 单 之 外 的 人 员 。 
对 人 脸 图 片 的 搜索 不 仅 返 回 一 张 相 似 照 片 ， 而 且 返 回 该 目标 人 物 在 网 络 上 的 任何 图 片 。 


该 专利 已 经 对 1000 幅 图 像 进 行 过 测试 ， 测 试图 像 包括 美国 总 统 奥巴马 、 


妮 、 英 国 哈里 王子 、 演 员 布 拉 德 皮特 等 。 


fn 


流行 歌手 布 兰 


图 5.4 ”Google 研制 的 人 脸 搜索 系统 
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5.2 ”人 脸 检测 


任何 人 脸 搜索 系统 首先 都 需要 从 摄像 机 或 视频 监控 设备 采集 得 到 的 输入 图 像 或 视 
频 中 搜索 出 人 脸 及 其 位 置 和 大 小 ， 人 脸 检测 是 系统 的 第 一 个 关键 所 在 ， 其 获取 人 脸 图 像 
的 精度 与 速度 直接 决定 着 整个 系统 的 性 能 。 

人 脸 检 测 (face detection) 是 指 对 于 任意 一 幅 给 定 的 输入 图 像 ， 采 用 一 定 的 策略 对 
图 像 进行 搜索 以 确定 其 中 是 否 含有 人 脸 ,， 如 果 有 则 返回 人 脸 在 图 像 中 的 数量 及 每 张 人 脸 
的 位 置 、 大 小 和 姿态 。 人 脸 检 测 是 比 人 脸 定位 更 宽泛 、 更 复杂 的 技术 ， 人 脸 定 位 〈face 
location) 一 般 是 指 在 事先 知道 给 定 的 输入 图 像 中 人 脸 数量 通常 有 且 仅 有 一 张 人 脸 ) 的 
情况 下 去 查找 人 脸 所 在 的 位 置 。 人 脸 检测 的 示意 图 如 图 5.5 所 示 。 


(a) 原始 图 像 Cb) 人 脸 检 测 图 像 
图 5.5 人 脸 检测 示意 图 


5.2.1 人 脸 检 测 方法 分 类 


如 图 5.6 所 示 ， 从 方法 论 上 讲 ， 人 脸 检 测 方法 可 以 根据 不 同 的 准则 进行 不 同 的 分 类 ， 
基本 上 可 以 归纳 为 以 下 几 种 。 
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人 脸 特 征 
色 特 征 


人 脸 检 测 方 法 
特征 子 空 间 


神经 网 络 
支持 向 量 机 
隐 马 尔 可 夫 


Adaboost 


基于 统计 学 习 


背景 减 除法 


基于 动态 图 像 


图 5.6 人 脸 检测 方法 的 分 类 
1. 基于 先 验 知识 的 方法 


这 类 方法 主要 基于 人 们 对 典型 人 脸面 部 特征 之 间 相 互 关系 的 认识 制定 出 一 系列 的 
规则 来 检测 人 脸 ， 如 鼻子 位 于 嘴巴 上 面 、 两 只 眼睛 的 连 线 与 面部 中 轴线 垂直 等 。 但 是 ， 
精确 恰当 的 判定 规则 的 定义 是 非常 困难 的 , 规则 太 细则 检测 时 很 难 满足 所 有 规则 ; 反之 ， 
规则 太 粗 则 可 能 得 到 太 多 的 伪 人 脸 。 因 此 , 这 类 方法 主要 用 于 正面 人 脸 图 像 和 人 脸 定位 ， 
属于 早期 的 自 上 而 下 的 人 脸 检 测 方法 。 

2. 基于 不 变 特征 的 方法 


这 类 方法 的 目标 是 找 出 在 姿态 、 视 角 、 光 照 变化 的 情况 下 仍然 保持 不 变 的 人 脸 结 构 
特征 来 定位 人 脸 。 这 些 不 变 的 结构 特征 包括 人 脸 特 征 〈 如 眼睛 、 眉 毛 、 嘴 巴 、 鼻 子 )、 
纹理 特征 、 肤 色 特 征 等 以 及 它们 的 组 合 特征 。 这 类 方法 是 自 下 而 上 的 方法 ， 对 姿态 等 变 
化 不 敏感 、 检 测 过 程 相 对 稳定 。 
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程序 复杂 度 低 ， 但 当 背 景 图 像 比较 复杂 时 检测 精度 会 下 降 ， 主 要 用 于 人 脸 定位 。 
3. 基于 模板 匹配 的 方法 


这 类 方法 使 用 预先 存储 的 一 些 描述 整 张 人 脸 或 人 脸 局 部 特性 的 标准 人 脸 模 板 ， 通 过 
计算 待 检测 图 像 与 存储 模板 之 间 的 相似 性 大 小 来 进行 匹配 检测 。 在 实际 应 用 中 ， 所 采用 
的 人 脸 模板 可 以 分 为 通用 模板 和 可 变形 模板 。 这 类 方法 既 可 以 用 于 人 脸 器 官 的 精确 定 
位 ， 也 可 以 用 于 人 脸 配 准 ， 其 优点 是 简单 直观 、 容 易 实 现 ， 缺 点 是 很 难 有 效 地 处 理 搜索 
尺度 、 姿 态 和 光照 变化 等 问题 。 

4. 基于 统计 学 习 的 方法 

这 类 方法 将 人 脸 区 域 和 非 人 脸 区 域 看 成 两 种 不 同 的 模式 ， 从 而 将 人 脸 检测 问题 转化 
为 模式 识别 中 的 “两 类 ”分 类 问题 ， 通 过 利用 某 种 统计 分 析 或 机 器 学 习 方 法 对 大 量 的 人 
脸 样本 与 非 人 脸 样本 进行 训练 以 得 到 它们 各 自 的 统计 特征 ， 继 而 解析 出 一 个 人 脸 模 型 并 
构建 分 类 器 ， 然 后 使 用 训练 得 到 的 分 类 器 判断 输入 图 像 中 所 有 感 兴趣 区 域 属于 哪 类 模 
式 ， 以 此 完成 人 脸 检测 。 

具有 代表 性 的 方法 包括 特征 子 空间 方法 、 神 经 网 络 方法 、 支 持 向 量 机 方法 、 隐 马尔 
可 夫 方 法 、Adaboost 方法 等 。 这 类 方法 具有 很 强 的 适应 能 力 、 实 时 性 和 和 鲁 棒 性 ， 是 目前 
最 流行 ， 也 是 成 就 和 影响 最 大 的 方法 ， 适 用 于 复杂 背景 图 像 中 的 实时 人 脸 检 测 ， 其 缺点 
是 需要 大 量 的 训练 样本 和 统计 分 析 ， 训 练 过 程 费 时 费力 ， 故 仍 有 待 改进 。 

5. 基于 动态 图 像 的 方法 


随 着 时 代 的 发 展 ， 视 频 监控 设备 随处 可 见 ， 这 些 设 备 能 得 到 一 段 时 间 内 连续 的 若干 
幅 动态 图 像 ， 即 视频 序列 。 这 些 连 续 的 视频 图 像 中 包含 了 更 多 的 时 间 相 关 信息 、 运 动 信 
息 和 前 后 帧 关联 性 。 这些 额 外 的 信息 促 发 人 们 探索 有 别 于 上 述 基于 静态 图 像 的 人 脸 检测 
方法 ， 将 人 脸 从 复杂 的 背景 中 有 效 地 分 割 出 来 ， 比 较 成 熟 且 应 用 广泛 的 方法 有 背景 减 除 
法 、 帧 差 法 、 光 流 法 等 。 


5.2.2 ”基于 Adaboost 的 人 脸 检测 


在 实际 应 用 中 ， 人 脸 检测 常 使 用 Adaboost 方法 ，Adaboost 方法 属于 基于 统计 学 的 
方法 ， 能 在 达到 较 高 检测 精度 的 同时 快速 返回 检测 结果 。 


1. 基本 原理 
Viola 和 Jones 提出 的 基于 Adaboost 的 人 脸 检 测 方法 有 机 地 组 合 了 3 个 重要 思想 : 
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口 使 用 Haar-like 特征 表示 图 像 ， 引 入 积分 图 ， 提 高 特征 计算 速度 ; 
口 基于 弱 分 类 器 ， 采 用 Adaboost 方法 ， 选 择 少量 特征 构造 强 分 类 器 ; 
口 使 用 级 联 ( Cascade ) 策略 提高 人 脸 检 测速 度 。 


相关 论文 为 2001 年 发 表 在 CVPR 上 的 Rapid object detection using a boosted cascade 
of simple features， 被 引用 的 次 数 已 经 超过 8000 次 。 由 于 在 人 脸 检 测 领域 的 基础 性 影响 
和 里 程 碑 意 义 ， 该 论文 获得 2011 年 CVPR 委员 会 颁发 的 Longuet-Higgin 奖 ， 表 彰 该 文 
章 10 多 年 来 在 计算 机 视觉 领域 做 出 的 奠基 性 贡献 。 

2. Haar-like 特征 与 积分 图 


Haar-like 特征 和 积分 图 (integral image) 是 1984 年 由 富兰克林 : 克 罗 引 入 计算 机 图 
形 学 领域 的 ， 但 是 该 概念 并 没有 在 计算 机 图 形 学 领域 被 广泛 应 用 ， 近 20 年 后 因 在 Viola 
和 Jones 的 人 脸 检测 框架 中 取得 成 功 开 始 广 受 关注 。 

Haar-like 特征 是 一 种 基于 Haar 小 波 的 特征 ， 最 早 由 Papageorgiou 等 应 用 于 人 脸 表 
示 。 采 用 Haar-like 特征 代替 常用 的 图 像 强 度 特征 〈 即 图 像 中 每 个 像素 点 的 RGB 值 ) 的 
原因 在 于 后 者 的 计算 量 很 大 ， 而 前 者 与 积分 图 的 结合 可 以 实现 对 特征 的 快速 计算 ， 任 意 
尺寸 的 Haar-like 特征 都 可 以 在 常数 时 间 内 完成 。 

Haar-like 特征 使 用 检测 窗口 中 指定 位 置 的 相 邻 矩 形 ， 计 算 每 个 矩形 区 域 的 像素 和 ， 
并 取 其 差 值 来 对 图 像 的 子 区 域 进行 分 类 。 如 图 5.7 所 示 , 在 Viola 和 Jones 提出 的 人 脸 检 
测 框架 中 ，Haar-like 特征 可 分 为 3 类 和 4 种 形式 ， 即 2 矩形 特征 〈2-rectangle features， 
子 图 A 和 B)、3 矩形 特征 (3-rectangle features, 子 图 C) 和 4 和 矩形 特征 (4-rectangle features， 
子 图 D)。 更 多 的 Haar-like 特征 (如 倾斜 45° 的 特征 ) 可 参考 Lienhart 和 Maydt 的 文献 。 
每 种 形式 的 Haar-like 特征 可 以 具有 任意 的 位 置 和 尺寸 ， 但 均 包 含 白 色 和 黑色 两 种 矩形 ， 
其 特征 值 为 白色 算 形 的 像素 和 减 去 黑色 算 形 的 像素 和 。Haar 特征 值 反映 图 像 中 特定 区 域 
的 某 些 特性 ,比如 边缘 或 者 纹理 , 其 值 随 特征 形式 、 算 形 大 小 和 算 形 位 置 的 变化 而 变化 。 


有 | 丑 
下 || 国 


图 5.7 部 分 Haar-like 特征 


B 
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在 一 个 很 小 的 检测 窗口 中 ， 可 能 包含 非常 多 的 矩形 特征 ， 如 在 24X24 像素 大 小 的 
检测 窗口 中 ， 和 矩形 特征 的 数量 可 以 达到 18 万 个 ， 远 远大 于 检测 窗口 中 的 像素 总 数 24X 
24=576。 如 何 快速 计算 这 么 多 的 特征 就 成 为 一 个 迫切 的 问题 ， 积 分 图 可 以 解决 该 难题 。 

积分 图 是 描述 图 像 全 局 信息 的 一 种 矩阵 表示 方式 , 其 每 一 点 的 值 是 原始 图 像 中 对 应 
位 置 的 左上 角 区 域 的 所 有 值 之 和 |: 

T(x,y) = 区 i(x,y) 
其 中 ，7Z(x,y) 是 积分 图 像 ，i(x,y ) 是 原始 图 像 的 像素 值 。 
整个 图 像 的 “积分 图 ”只 需要 遍历 一 次 图 像 就 可 以 全 部 计算 出 来 ， 这 可 以 从 下 面 的 


T(x,y)=i(x,y)+I1(x—1,y)+1(x,y—1) -I(x-1,y-1) 


推广 上 述 关系 式 ， 可 以 在 常数 时 间 内 计算 出 图 像 中 任意 矩形 区 域 的 像素 值 之 和 。 如 
图 5.8 所 示 ， 阴 影 矩 形 区 域 的 值 为 : 
> iCx,y)=714)+10) -71(2) -7(3) 


SxS 
SYS 


即 矩 形 特 征 的 特征 值 计 算 只 与 该 窍 形 端点 的 积分 图 有 关 ， 而 与 图 像 坐 标 值 无 关 ， 并 
且 整 个 计算 过 程 只 需要 进行 简单 的 加 减 运 算 ， 不 管 矩形 特征 的 尺度 如 何 ， 其 特征 值 押 需 
的 计算 资源 是 常量 。 因 此 积分 图 的 引入 使 得 Haar-like 特征 的 计算 更 加 方便 、 快 速 ， 为 实 
时 人 脸 检 测 提供 了 保证 。 


图 5.8 积分 图 计算 矩形 阴影 区 域 的 值 
3. Adaboost 方法 


在 积分 图 解决 快速 计算 大 量 矩 形 特征 的 特征 值 问题 之 后 ， 需 要 采用 Adaboost 方法 
来 训练 分 类 器 ， 使 得 Haar-like 特征 恰到好处 地 组 合 起 来 以 检测 人 脸 。 


第 5 章 大 规模 人 脸 搜索 系统 129 


Adaboost (Adaptive Boosting， 自 适应 增强 ) 是 一 种 统计 学 习 方 法 ， 由 Freund 和 
Schapire 于 1995 年 提出 , 其 基本 思想 是 将 大 量 分 类 能 力 一 般 的 弱 分 类 器 , 通过 一 定 方式 
组 合 起 来 ， 如 “绝对 多 数 ” 投 票 或 加 权 投 票 ， 构 造 一 个 分 类 能 力 很 强 的 强 分 类 器 。 所 谓 
弱 分 类 器 (weak classifier) 并 不 局 限于 某 种 确定 类 型 的 分 类 器 ,“ 弱 ”只 是 表明 分 类 器 
的 分 类 能 力 不 是 很 强 ， 即 只 需要 分 类 器 的 精确 度 比 随机 猜测 稍微 有 些 提 升 即 可 ， 如 对 于 
两 类 问题 而 言 ， 分 类 正确 率 只 需 超过 50%， 而 强 分 类 器 的 精确 度 要 求 远 远 超出 随机 猜测 
的 精度 。 在 Viola 和 Jones 的 人 脸 检 测 框架 中 ， 一 个 Haar-like 特征 对 应 着 一 个 弱 分 类 器 
h(x)， 其 定义 为 : 

1, pf(W<p0, 
oo-| 其 他 


其 中 ,h(x) 表 示弱 分 类 器 的 值 ，1 表示 人 脸 ，0 表示 非 人 脸 ;， x 表示 一 个 待 检 测 的 子 
窗口 ， 广 用 于 控制 不 等 式 的 方向 ， 即 只 能 取 士 1 ; f(x) 为 某 个 Haar-like 特征 的 特征 值 ，@ 
为 冰 值 。 

在 生成 弱 分 类 器 之 后 , 如 何 从 弱 分 类 器 组 合 中 得 到 强 分 类 器 呢 ? Adaboost 方法 的 基 
本 思想 是 : 通过 不 断 迭 代 ， 自 适应 地 调整 弱 分 类 器 的 错误 率 ， 直 到 错误 率 能 达到 某 个 预 
定 的 足够 小 的 期 望 值 。 

Adaboost 方法 首先 对 每 个 训练 样本 赋予 一 个 权 值 “初始 权 值 为 常数 )， 在 每 一 轮 人 迭 
代 时 ， 根 据 分 类 结果 对 前 一 轮训 练 失败 的 样本 赋 以 较 大 的 权 值 ， 而 对 正确 分 类 的 样本 则 
降低 其 权 值 ， 然 后 让 学 习 算法 在 后 续 学 习 中 “聚焦 于 ”这 些 比较 难 分 的 训练 样本 之 上 ; 
最 后 由 算法 挑选 出 若干 个 弱 分 类 器 ， 加 权 相 加 组 成 强 分 类 器 。 

4. 级 联 分 类 器 


通过 Adaboost 方法 可 以 从 弱 分 类 器 中 训练 合成 强 分 类 器 ， 提 升 分 类 器 的 精确 度 。 
在 现实 的 人 脸 检 测 中 ， 仅 仅 靠 一 个 强 分 类 器 难以 保证 检测 的 正确 率 。 需 要 采用 级 联 
(Cascade ) 策略 将 训练 出 的 多 个 强 分 类 器 “ 强 强 联手 ”形成 级 联 分 类 器 ， 在 比较 好 地 
排除 非 人 脸 样 本 的 情况 下 ， 提 高 人 脸 检测 的 正确 率 。 
级 联 分 类 器 的 基本 思想 是 : 通过 各 级 强 分 类 器 检测 的 对 象 为 真实 人 脸 的 可 能 性 会 比 
较 大 。 
如 图 5.9 所 示 ， 级 联 策略 将 若干 个 强 分 类 器 分 级 串联 在 一 起 ， 在 检测 过 程 中 ， 通 过 
前 几 级 分 类 器 拒绝 大 量 的 非 人 脸 样本 (如 背景 区 域 )， 以 节约 更 多 时 间 专 注 于 对 那些 更 
可 能 是 人 脸 的 区 域 进 行 检测 ， 使 得 整个 人 脸 检测 的 速度 大 幅 提高 。 串 联 的 强 分 类 器 需要 
级 比 一 级 复杂 ， 一 级 比 一 级 包含 的 弱 分 类 器 多 ， 以 确保 在 最 快 的 时 间 内 排除 最 多 的 非 
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人 脸 样 本 ， 并 逐 级 提高 检测 精度 。 


强 分 类 器 | | 强 分 类 器 | ...... 
Hi(x) 


被 拒绝 的 子 窗口 图 像 


图 59 级 联 分 类 器 的 检测 示意 图 
5.3 ”人 脸 特征 提取 


从 海量 的 图 像 或 视频 中 检测 出 人 脸 ， 仅仅 完成 了 第 一 步 ; 检测 出 的 原始 人 脸 图 像 通 
常 包含 的 特征 数量 有 成 千 上 万 个 ， 容 易 引 起 “ 维 数 灾难 ” 高 维特 征 使 得 训练 模型 更 复 


杂 、 泛 化 能 力 下 降 ; 使 得 分 析 特 征 、 训 练 搜索 系统 所 需 时 间 大 大 增加 ， 难 以 满足 人 脸 搜 
索 系 统 的 快速 要 求 。 


要 获取 有 用 信息 ， 必 须 对 人 脸 图 像 进 行 特征 提取 ， 以 便 减 少 特征 个 数 、 降 低 运行 时 
间 、 得 到 标识 人 脸 个 体 的 最 具有 代表 性 的 特征 或 最 有 利于 模式 分 类 的 特征 ， 如 图 5.10 


所 示 。 
特征 提取 
人 脸 图 像 人 脸 特征 数据 分 析 


人 


图 5.10 人 脸 特 征 提 取 


人 脸 特 征 提取 就 是 用 尽 可 能 少 的 特征 (如 年 条 、 了 眼睛、 嘴巴 等 的 位 置 、 关 键 点 或 轮 
廓 线 ) 来 紧凑 地 表示 人 脸 ， 减 少 或 消除 人 脸 图 像 中 的 次 重要 信息 ， 保 持 或 突出 足够 满足 
人 们 需求 的 有 效 信息 ， 便 于 后 续 的 分 析 处 理 ， 如 识别 、 跟 踪 、 搜 索 关 联 信息 等 。 在 人 脸 
识别 中 ， 一 幅 64x64 的 人 脸 图 像 按 行 或 列 堆 又 最 后 转化 为 4096 维 像素 空间 中 的 向 量 ， 
已 有 研究 表明 ， 可 用 降 维 后 的 子 空间 来 有 效 表 示 不 同 光照 条 件 下 人 脸 图 像 模型 。 

人 脸 特 征 的 提取 方法 可 以 根据 不 同 准则 进行 分 类 。 

1. 根据 特征 的 组 合 方式 

口 特征 选择 方法 (feature selection ) 
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人 脸 特 征 提取 得 到 的 特征 是 原始 特征 的 一 个 子 集 ， 不 改变 原始 特征 的 值 。 首 先 从 所 
有 人 脸 特 征 中 ， 启 发 式 或 随机 地 搜索 出 一 个 特征 子 集 ; 然后 采用 某 个 评价 函数 对 其 进行 
评价 ， 以 判定 该 特征 子 集 的 好 坏 程 度 ， 若 评价 结果 比 设 定 的 准则 好 ， 就 完成 特征 提取 过 
程 ， 否 则 继续 搜索 下 一 组 特征 子 集 。 

口 特征 抽取 方法 (feature extraction ) 

人 脸 特 征 提 取得 到 的 特征 是 原始 特征 的 一 个 组 合 或 一 个 映射 , 通常 不 再 保持 原始 特 
征 的 值 。 首 先 根据 某 个 假设 建立 相应 的 数学 模型 ， 并 得 到 其 目标 函数 ， 然 后 通过 优化 该 
目标 函数 得 到 所 期 望 的 特征 。 

2. 根据 数据 的 结构 特征 

口 子 空 间 方法 

该 类 方法 假设 数据 位 于 或 近似 位 于 低 维 的 线性 或 仿 射 子 空间 上 , 采用 具有 显示 表达 
式 的 线性 映射 函数 提取 数据 特征 ， 如 主 成 分 分 析 (Principal Component Analysis, PCA )。 

口 流 形 学 习 方 法 

该 类 方法 假设 数据 位 于 或 近似 位 于 某 个 非 线 性 流 形 上 , 或 者 说 数据 具有 全 局 的 非 线 
性 分 布 和 局 部 的 近似 线性 分 布 ， 通 过 隐 含 映射 方式 提取 出 原始 高 维 人 脸 特征 的 低 维 表 
示 。 其 映射 函数 是 非 线 性 映射 , 通常 没有 显 式 表 达 形 式 , 如 局 部 线性 嵌入 (Locally Linear 
Embedding，LLE )。 

3. 根据 先 验 标 签 信息 的 多 少 

口 无 监督 方法 

当 无 法 获取 数据 的 先 验 标签 信息 时 , 无 监督 方法 试图 在 提取 后 的 特征 空间 中 尽量 忠 
实地 保持 数据 的 全 局 或 局 部 几何 结构 ， 以 挖掘 数据 中 隐 含 的 有 意义 的 特征 ， 或 对 数据 做 
一 些 探索 性 分 析 ， 如 聚 类 等 。 

口 半 监 督 方法 

当 大 量 的 具有 标签 信息 的 数据 难以 获取 时 , 半 监 督 方法 试图 利用 少量 的 标签 数据 和 
大 量 的 无 标签 数据 来 提取 特征 ,根据 有 标签 数据 的 结果 来 设计 分 类 器 ， 从 而 更 好 地 对 无 
标签 数据 进行 分 类 。 

口 有 监督 方法 

有 监督 方法 假设 训练 样本 的 标签 信息 已 知 , 充分 利用 标签 信息 来 对 训练 样本 进行 学 
习 ， 以 选取 出 最 有 利于 对 训练 样本 集 外 的 数据 进行 标记 的 人 脸 特 征 ， 如 线性 判别 分 析 


(Linear Discriminant Analysis, LDA )。 
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5.3.1 PCA 方法 


PCA (Principal Component Analysis， 主 成 分 分 析 ) 是 一 种 无 监督 的 子 空 间 特征 抽取 
方法 ， 由 Hotelling 于 1933 年 首先 提出 ， 是 最 古老 、 最 经 典 的 数据 分 析 工 具 之 一 。Turk 
和 Pentland 于 1991 年 将 PCA 方法 应 用 于 人 脸 表 示 和 人 脸 分 类 ( 即 特征 脸 , Eigenfaces)， 
取得 了 成 功 ， 相 关 论 文 被 引用 次 数 已 达 11000 余 次 。 

在 数据 分 析 中 ， 通 常会 假设 数据 分 布 服从 一 定 的 概率 ， 如 正 态 分 布 等 。 概 率 分 布 有 
两 个 关键 的 评价 指标 ， 即 均值 和 方差 。 方 差 度量 随机 变量 与 其 均值 之 间 的 偏离 程度 。 某 
一 维度 上 的 方差 衡量 数据 在 该 维度 上 的 波动 情况 ， 方 差 越 大 ， 与 均值 的 离散 程度 越 大 ， 
所 提供 的 有 价值 信息 越 丰富 。 

通常 方差 越 大 提供 的 信息 越 多 ， 方 差 越 小 提供 的 信息 越 少 。 主 成 分 分 析 以 方差 大 小 
来 作为 信息 量 多 少 的 依据 ， 通 过 线性 变换 降低 数据 维 数 ， 其 基本 思想 是 尽 可 能 地 保留 较 
大 方差 的 数据 ， 丢 掉 方 差 较 小 的 数据 ， 从 而 在 尽量 保留 原始 数据 主要 信息 、 损 失 最 少 有 
用 数据 的 前 提 下 提取 特征 ， 抓 住 事物 的 主要 矛盾 ， 并 揭示 数据 内 部 的 规律 性 。 

给 定 一 组 观测 数据 {x; e R?,i=1,2,…,N} ， 主 成 分 分 析 的 目标 可 以 表述 为 : 寻找 一 组 
相互 正 交 的 投影 ， 邓 或 一 个 列 正 交 的 线性 投影 矩阵 CeRDxd ,使 得 投影 后 的 低 维 数据 表示 
坟 =GTwy 具 有 最 大 的 方差 。 

记 原 始 数 据 按 列 堆 共 构成 的 矩 阵 为 : 


党 =[2xxN]eRDxN 


低 维 嵌入 表示 按 列 堆 琶 构 成 的 矩阵 为 : 
Y=[y,y, ,yw JE RN 
原始 数据 的 样本 协 方差 矩阵 为 : 
S,=EN (x -Tx 7) = XHXT! 

其 中 ， 开 = 2 mV 为 样本 均值 ， 矿 = 了 -ee7 /NN 为 中 心 化 矩阵 ，7 了 是 单位 矩阵 ， 
ee RV 是 元 素 全 为 1 的 列 向 量 。 

由 了 =[74, 攻 …,ypw ]=[G7A4,G7x2,…,G7Txw]=G7TX 可 求 得 低 维 嵌入 表示 的 协 方差 
和 矩阵 为 : 


! 注意 ， 严 格 的 样本 协 方差 矩阵 定义 应 为 5, /CN 一 1) ， 这 里 为 方便 省 去 了 乘积 因子 1/(N -1D) ， 但 这 
不 会 影响 后 续 的 分 析 和 结果 ， 下 同 。 
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YN (yi -Fy -7)" = =GTXHRTG =G7S,G 
其 中 ，7= Nyi/N 为 低 维 嵌入 表示 的 均值 。 
主 成 分 分 析 的 目标 函数 可 以 表示 为 下 列 数学 形式 : 


argmax tr(GTS,G), 
G 


sg “GG=L 
其 中 ，tr(G75,G) 表示 矩阵 G7S'G 的 迹 ，s.t. 是 Subject to 的 缩写 。 


上 述 目标 函数 的 最 优 解 ， 即 主 成 分 分 析 对 应 的 变换 矩阵 G 可 以 通过 对 协 方差 矩阵 
引进 行 谱 分 解 或 特征 分 解 来 求解 。 


定理 5.1 主 成 分 分 析 的 最 优 线性 变换 矩阵 G 由 St 的 最 大 d 个 特征 向 量 组 成 。 


证 明 : 使 用 拉 格 朗 日 乘 子 法 来 最 大 化 上 述 目标 函数 ， 得 该 优化 问题 的 拉 格 朗 日 函数 
为 : 


L(G,A)=1r(GTS,G)-t(A(GTG—7)) 
其 中 ，4 为 实 对 称 和 矩阵 。 
对 G 求 偏 导 ， 令 结果 为 0， 可 得 
-yc-a4 =0 
由 线性 代数 理论 ,， 实 对 称 矩 阵 可 用 正 交 和 矩阵 对 角 化 。 因 此 , 存在 正 交 和 矩阵 U 和 对 角 
矩阵 A=diag(4,1 加 wj) ， 使 得 4=UAU7 。 可 得 : 
SG=GUAUT = 5,GU = GUA 


令 GU= 中 =[ 内 办 ,由 ] ， 则 由 上 式 有 : 


Sh = 16,i=1,2,…,d 
说 明 团 和 在 是 5 的 特征 值 和 特征 向 量 。 
由 目标 函数 及 其 约束 条 件 ， 可 知 
1r(GTS,G)=1r(GTGA)=1r(A)=tr(UAUT) 
=1r(UTUA)=1r(A)=AN+h++ hy 
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即 目 标 函 数值 实际 对 应 & 的 4 个 特征 值 之 和 ， 为 使 该 目标 函数 值 最 大 化 ， 应 取 5, 
的 最 大 qd 个 特征 值 入 > 入 >…> Ma 。 这 样 ， 中 =[ 册 ,加 加] 由 8 的 最 大 dd 个 特征 值 对 
应 的 特征 向 量 组 成 。 进 而 ， 有 G= @V7 ， 即 主 成 分 分 析 的 最 优 解 G 由 样本 协 方差 矩阵 
& 的 最 大 d 个 特征 值 对 应 的 特征 向 量 右 乘 一 个 正 交 和 矩阵 UV 组 成 。 

由 于 G 右 乘 一 个 任意 的 正 交 和 矩阵 不 影响 目标 函数 中 优化 问题 的 解 , 因此 通常 取 最 优 
线性 变换 矩阵 G 为 % 的 最 大 4 个 特征 向量 。 

图 5.11 给 出 主 成 分 分 析 的 一 个 例子 , 可 以 看 出 主 成 分 分 析 对 具有 本 征 线性 结构 的 数 
据 集 具有 较 好 的 分 类 效果 ， 能 通过 学 习 获 得 均 方 误差 下 的 最 佳 线性 投影 方向 。 


图 5.11 主 成 分 分 析 方 法 示意 图 


5.3.2 LDA 方 法 


LDA (Linear Discriminant Analysis, 线性 判别 分 析 〉 最 早 由 Fisher 于 1936 年 提出 ， 
最 初 是 为 了 解决 两 类 数据 的 分 类 问题 ， 后 来 被 推广 到 多 类 数据 的 分 类 ， 并 逐渐 得 到 广泛 
关注 和 应 用 , 成 为 特征 提取 算法 中 最 经 典 的 有 监督 方法 之 一 。 Belhumeur 等 在 1997 年 将 
LDA 方法 应 用 于 人 脸 识 别 之 中 〈 即 Fisher 脸 ，Fisherfaces)， 从 此 LDA 成 为 人 脸 识别 的 
一 种 基准 (baseline) 方法 ， 被 引用 次 数 已 近 8000 次 。 

线性 判别 分 析 直 接 以 数据 分 类 为 目标 , 基于 这 样 一 个 直觉 启发 ， 即 如 果 同 一 类 的 样 
本 之 间 相对 聚集 ， 而 不 同类 的 样本 之 间 相 对 远离 ， 则 不 同 的 类 能 尽 可 能 地 分 离 ， 此 时 也 
能 更 容易 分 类 识别 出 不 同类 的 样本 。 

数据 方差 刻画 样本 波动 的 大 小 及 其 离散 趋势 , 因此 线性 判别 分 析 方法 试图 寻求 一 个 
低 维 的 特征 空间 ， 使 得 类 内 离 差 尽 可 能 小 ， 而 类 间 离 差 尽 可 能 大 。 
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给 定 来 自 大 个 类 别 的 共 N 个 数据 采样 如 px …, 硅 …, 葡 ,Ee RD? , 其 中 驴 是 来 自 
第 i 个 类 别 的 第 j 个 样本 ， 则 有 : 


NS 下 而 


不 失 一 般 性 ， 假 设 这 些 数 据 按 类 别 顺序 封装 在 一 个 DXN 的 数据 矩阵 
=| 对 六 中， 即 最 前 面 是 来 自 第 一 类 的 Ni 个 样本 ， 接 着 是 
来 自 第 二 类 的 入; 个 样本 ， 直 到 最 后 一 类 样本 。 线 性 判别 分 析 的 目标 可 以 表述 为 寻找 一 
个 线性 投影 矩阵 G e R24 ,使 得 经 过 特征 提取 后 , 属于 同类 的 数据 尽量 靠近 ,而 属于 不 
同类 的 数据 之 间 尽 量 远离 。 

原始 数据 的 类 内 散布 矩阵 〈within-class scatter matrix ) 5, 和 类 间 散 布 矩 阵 


(between-class scatter matrix) 5; 分别 为 : 


上 了 
= YN,(x' -T(x 7) 


i=l 
其 中 ， 390 与 六 /Ni 为 第 ;类 样本 的 均值 ， 而 = ZX /N 为 所 有 样本 的 均值 。 
线性 判别 分 析 的 目标 函数 可 以 表示 为 下 列 数学 形式 : 
J(G)=argmax tr((G7S,G) "(GTS,G)) 
CERD4 


其 中 ，G7S,G 和 G7S6G 分 别 为 特征 室 间 中 的 类 内 散布 矩阵 与 类 间 散 布 矩阵 。 

上 述 目标 函数 的 最 优 解 , 即 线性 判别 分 析 对 应 的 变换 矩阵 G 可 以 通过 对 原始 数据 的 
类 内 散布 矩阵 5 与 类 间 散 布 矩 阵 % 5 形成 的 广义 特征 值 问题 进行 特征 分 解 来 求解 。 

定理 5.2 线性 判别 分 析 的 最 优 线性 变换 矩阵 CG 由 广义 特征 值 问题 5,g = 45,,g 的 最 
大 4d 个 特征 向 量 组 成 。 

当 类 内 散布 矩阵 Sw 非 奇异 时 ， 可 以 通过 对 SwlsSy 进行 特征 分 解 来 得 到 线性 判别 分 析 
的 4 个 特征 向 量 。 在 人 脸 搜 索 的 应 用 中 ， 类 内 散布 矩阵 Sw 通常 是 奇异 的 ， 因 此 需要 特 
别 地 处 理 来 避免 对 奇异 矩阵 的 求解 。 

定理 5.3 在 线性 判别 分 析 中 ， 类 内 散布 矩阵 S, 的 秩 小 于 min(D,N 一 k) ， 而 类 间 散 
布 矩 阵 5; 的 秩 小 于 min(D,k 一 1) 。 
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由 于 SweRDxD ，S esRDxD , 由 定理 5.3 可 知 , 当 数 据 的 维 数 D 大 于 样本 数 时 (人 
脸 搜索 中 经 常 面 对 “ 小 样本 ”问题 ， 通 常 Y< D )， 类 内 散布 矩阵 Sw 为 奇异 矩阵 。 为 避 
免 对 奇异 矩阵 的 求解 ， 需 要 采用 其 他 手段 提取 原始 数据 的 特征 ， 使 得 新 的 特征 空间 中 的 
类 内 散布 矩阵 非 奇异 。 在 人 脸 搜索 领域 ， 通 常 采用 主 成 分 分 析 方 法 对 原始 特征 进行 预 提 
取 ， 得 到 非 奇 异 的 类 内 散布 矩阵 ， 然 后 通过 在 中 间 维 数 空间 求解 广义 特征 值 问题 ， 得 到 
线性 判别 分 析 的 投影 矩阵 。 在 人 脸 识 别 中 ，Fisher 脸 (Fisherfaces) 方法 就 是 采用 这 种 处 
理 策略 。 

相对 于 主 成 分 分 析 而 言 ， 线 性 判别 分 析 最 大 的 优点 在 于 ， 直 接 以 分 类 为 目标 ， 得 到 
的 投影 方向 是 最 能 判别 数据 类 别 的 方向 , 而 主 成 分 分 析 得 到 的 是 最 能 表达 或 重 构 数 据 的 
投影 方向 ， 如 图 5.12 所 示 。 


图 5.12 线性 判别 分 析 方 法 示意 图 


5.3.3 Kernel 方 法 


在 数据 位 于 低 维 线性 或 仿 射 子 空间 中 时 ， 传 统 的 子 空间 特征 提取 方法 处 理 效果 很 
好 ， 但 是 当 数 据 位 于 非 线性 结构 上 时 ， 会 造成 很 大 的 扭曲 ， 影 响 处 理 效果 。 

传统 子 空间 特征 提取 方法 大 多 为 数据 间 的 点 积 关 系 ， 为 它们 在 核 (Kernel) 框架 下 
进行 扩展 成 为 可 能 。 
核 化 扩展 的 基本 思想 是 : 首先 将 数据 投影 到 更 高 维 的 核 空间 ， 使 数据 近似 地 满足 线 
性 要 求 ; 然后 在 核 空 间 直 接 采 用 经 典 的 子 空间 方法 有 效 地 提取 特征 ， 如 核 主 成 分 分 析 
(Kemel PCA，KPCA )、 核 线性 判别 分 析 (Kemel LDA，KLDA) 等 。 子 空间 方法 的 核 
化 扩展 已 经 成 功 应 用 于 人 脸 检 测 、 人 脸 识 别 和 语音 识别 之 中 。 
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不 妨 假设 数据 已 经 中 心 化 ， 即 Nixy = 0 。 可 得 


Cu=u 
C=2M 
4>0, ue R? \{0} 
由 于 
Cir= ZN 0G 和 
因此 所 有 对 应 4 关 0 的 特征 向 量 & 必然 位 于 鸭 ,z2，…xw 所 组 成 的 空间 中 ， 即 存在 系 
数 w,i=12……N 使 得 


N 
U= > Qixi 
i=l 


另 一 方面 ， 有 : 
XICu= AxTu),k=1,2,.%,N 


可 得 

N N N 

和 ZF) = 42 ok) 2 

[= 六 二 
定义 一 个 WxN 的 矩阵 ， 其 中 元 素 为 : 

ky = ks)) E(x)) 
则 可 以 简化 为 
K2a=AKa 


其 中 ，@ =[04,Q3,…,QNw] 。 上 式 的 求解 归结 为 寻找 下 述 特征 问题 的 非 零 特征 值 和 


特征 向 量 : 
Ka=Aa 


求 得 w 后， 即 可 得 到 PCA 的 特征 向 量 u。 
由 于 PCA 的 目标 函数 可 以 等 价 地 重 塑 为 数据 间 的 点 积 关系 ， 因 此 可 以 在 核 技巧 的 
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框架 下 对 其 进行 非 线性 扩展 ， 得 到 核 PCA。 核 PCA 将 数据 投影 到 一 个 更 高 维 〈 可 能 是 
无 限 维 ) 的 点 积 空间 日 ， 该 空间 隐 含 地 和 一 个 非 线 性 映射 办 相关 联 : 


Gi:RN 一 9rhy> D(x) 
使 得 数据 近似 地 在 更 高 维 空间 满足 线性 要 求 , 此 时 可 利用 线性 子 空间 学 习 方 法 PCA 
来 处 理 数据 。 核 PCA 可 归结 为 类 似 于 下 述 特征 问题 : 
K*g=Aa 
其 中 ， 天 "是 一 个 核 矩 阵 ， 其 元 素 为 
局 =(pGa) G(x))) 
引入 核 矩 阵 而 不 是 直接 寻找 非 线性 映射 ， 计 算 更 容易 ， 不 会 比 线性 条 件 下 增加 多 少 


额外 的 计算 量 。 
常用 的 核 窍 阵 如 下 。 


口 高 斯 核 


cc)=ezp| -of fo7] 

口 d 阶 多 项 式 核 
Kx,x7)= 0 xy+R) 
口 线性 核 
= 
其 中 ， 高 斯 核 可 以 将 原始 空间 映射 为 无 穷 维 空间 ， 对 于 一 个 特定 的 问题 ， 不 同 的 核 
函数 可 能 会 带 来 不 同 结果 ， 在 实际 应 用 中 需要 通过 尝试 来 得 到 或 者 需要 一 些 经 验 信息 。 
5.4 人 脸 特 征 比 对 


将 提取 到 的 人 脸 特 征 与 数据 库 中 己 有 人 脸 特征 进行 比 对 ， 找 出 最 佳 的 匹配 对 象 ， 完 
成 最 终 的 身份 认证 或 相似 人 群 搜索 。 此 时 需要 衡量 特征 之 间 差 异 大 小 或 关系 远近 的 度量 
函数 ， 以 及 将 待 比 对 的 人 脸 划 分 到 最 佳 匹配 对 象 的 分 类 器 。 
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5.4.1 典型 的 度量 方法 


根据 数据 特性 的 不 同 ， 在 进行 人 脸 特 征 比 对 时 需要 采用 不 同 的 度量 方法 ， 欧 几 旦 
距离 是 最 常用 的 度量 函数 。 对 于 任意 的 特征 向 量 a、b 和 c ， 严 格 的 度量 函数 满足 : 

口 非 负 性 : D(a,b)>0， 当 且 仅 当 a=b 时 ，D(a,b)=0。 

口 对 称 性 : D(a,b)=D(b,a)。 

口 三 角 不 等 式 : D(a,b)+D(b,c)> D(a,c)。 


常用 的 度量 函数 可 以 分 为 两 类 : 距离 度量 和 相似 性 度量 。 
1. 距离 度量 方法 


距离 度量 方法 将 提取 到 的 人 脸 特 征 看 作 高 维 欧 氏 空间 中 的 特征 点 , 每 个 人 脸 特 征 对 
应 一 个 元 素 x (i=1,2,…,D ), D 为 特征 提取 后 的 特征 维 数 ， 首 先 ， 整 幅 人 脸 图 像 的 特 
征 构 成 一 个 高 维 的 特征 向 量 蕊 =[Dmmxzo]sR2 ， 然后 构造 一 个 适当 函数 ， 计 算 两 个 
特征 点 之 间 的 某 种 距离 ， 距 离 越 大 ， 特 征 之 间 的 差异 越 大 。 

口 欧 氏 距离 (Euclidean Distance ) 

欧 氏 距离 即 欧 几 里 德 距离 ， 是 最 常用 、 最 易 理解 的 一 种 距离 度量 方法 。 


Dist(X,Y)= 必 c -yy 
i=1 


其 中 ， 针 =[6,x2…,xp], 了 =[y4,y…,yp] 为 两 幅 人 脸 图 像 对 应 的 特征 向 量 。 欧 氏 距 
离 衡量 特征 在 多 维 空间 上 存在 的 绝对 距离 ， 与 各 个 特征 点 所 在 的 位 置 坐标 直接 相关 ， 其 
值 越 大 说 明 特 征 之 间 的 差异 越 大 。 欧 氏 距离 体现 个 体 数 值 特征 的 绝对 差异 ， 用 于 需要 从 
特征 维度 的 数值 大 小 中 体现 差异 的 分 析 。 欧 氏 距 离 的 缺点 是 将 特征 的 各 个 分 量 的 量 纲 同 
等 看 待 ， 需 要 保证 各 维度 的 指标 具有 相同 量 纲 ， 两 个 单位 不 同 的 指标 使 用 欧 氏 距离 可 能 
使 结果 失真 。 另 外 没有 考虑 特征 的 各 个 分 量 之 间 不 同 的 分 布 情况 ， 如 均值 和 方差 等 。 

口 标准 化 欧 氏 距 离 ( Standardized Euclidean Distance ) 

标准 化 欧 氏 距离 即使 特征 的 各 维度 分 量 的 量 纲 或 分 布 不 相同 , 但 是 各 分 量 的 标准 化 
变量 都 是 均值 为 0、 方差 为 1， 具有 相同 的 量 纲 和 分 布 ， 其 定义 为 : 


惟 


Dist(X.Y)= 


其 中 ，o; 为 特征 的 第 i 个 分 量 的 标准 差 。 
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标准 化 欧 氏 距离 相当 于 在 进行 欧 氏 距离 计算 之 前 ， 先 对 数据 进行 归 一 化 处 理 。 
口 马 氏 距离 ( Mahalanobis Distance ) 


记 个 特征 针 ,XX,…,Xy eR? 之 间 的 协 方差 为 >， 特征 基 与 特征 及 之 间 的 马 氏 距 
离 为 : 
Dist(X,7)=(X, -xX,) 2 (xX, -x,) 


当 协 方差 矩阵 一 为 单位 矩阵 时 ， 即 特征 的 各 分 量 之 间 独 立 同 分 布 ， 马 氏 距 离 退 化 为 
欧 氏 距离 ， 当 协 方差 矩阵 为 对 角 和 矩阵 时 ， 马 氏 距 离 退化 为 标准 化 欧 氏 距离 。 

马 氏 距离 不 受 量 纲 的 影响 ， 两 点 之 间 的 马 氏 距离 与 原始 数据 的 测量 单位 无 关 ; 排除 
分 量 之 间 的 相关 性 干扰 ; 考虑 各 种 人 脸 特征 之 间 的 联系 ， 如 脸 的 长 度 与 鼻子 的 长 度 是 有 
一 定 关联 的 。 

协 方差 矩阵 己 的 引入 会 压 大 变化 微小 的 分 量 的 作用 ; 要 求 特征 总 数 N 大 于 特征 维 数 
D， 否 则 的 逆 算 阵 不 存在 ， 这 在 人 脸 搜 索 中 难以 满足 ， 即 “小 样本 ” 带 来 困惑 。 

2. 相似 性 度量 方法 


相似 性 度量 〈Similarity ) 通过 计算 特征 之 间 的 相似 程度 来 度量 特征 之 间 的 差异 。 与 
距离 度量 方法 相反 ， 相 似 性 度量 的 值 越 小 说 明 特征 之 间 的 相似 性 越 小 ， 差 异 越 大 。 

口 余弦 相似 性 (Cosine Similarity ) 

余弦 相似 性 是 最 常见 的 相似 性 度量 ,直接 将 特征 XY 看 作 高 维 空间 中 的 向 量 ， 两 个 不 
同 的 人 脸 特 征 之 间 的 相似 性 通过 两 者 对 应 的 特征 向 量 的 夹 角 余 弦 值 来 度量 ， 其 定义 为 : 


Zr 
Sim(X,Y) =c0s0 = = = 二 
FW Re 


欧 氏 距离 重视 距离 或 长 度 上 的 差异 ， 余 弦 相 似 性 注重 两 个 特征 在 方向 上 的 差异 。 
口 相关 系数 (Correlation Coefficient ) 
相关 系数 即 皮尔 逊 相关 系数 (Pearson correlation), 衡量 两 个 人 脸 特 征 之 间 的 相关 程 
度 ， 其 定义 为 : 
Cor(X,Y)= Sim(X-X,Y-Y) 
> 
WE E97) 
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其 中 ， X= zx 是 特征 X 的 均值 。 相 关系 数 具 有 平移 不 变性 和 尺度 不 变性 ， 常 常 
用 于 相关 性 分 析 之 中 。 其 取 值 范围 是 [-1,1], 值 为 正 时 表示 正 相关 , 值 为 负 时 表示 负 相 关 ， 
值 为 零 时 表示 两 者 之 间 不 存在 线性 相关 。 两 个 特征 的 相关 系数 绝对 值 越 大 ， 它 们 之 间 的 
相关 度 越 高 。 

口 杰 卡 德 相 似 (Jaccard Similarity ) 

当 将 提取 到 的 人 脸 图 像 的 特征 看 作 一 个 集合 时 ， 如 1 表示 包含 某 个 特征 ， 而 0 表示 
不 包含 该 特征 ， 采 用 杰 卡 德 相似 系数 来 度量 两 由 人 脸 图 像 之 间 的 相似 性 。 其 定义 为 : 


XNY 
Jac(X,Y) -Rl 


杰 卡 德 相似 系数 是 两 个 集合 的 交集 元 素 在 并 集中 所 占 的 比例 。 
5.4.2 ”典型 的 分 类 器 


分 类 器 对 每 一 个 待 分 类 或 待 搜索 的 人 脸 图 像 赋 予 一 个 类 别名 称 或 推荐 一 个 匹配 对 
象 ， 常 用 的 有 KNN 分 类 器 、SVM 分 类 器 等 。 


1. KNN 分 类 器 


KNN (K-Nearest Neighbor，K 最 近邻 ) 分 类 器 是 一 种 理论 成 熟 、 原 理 简 单 的 统计 分 
类 器 ， 其 基本 思想 是 “ 物 以 类 聚 、 人 以 群 分 人 “ 近 朱 者 赤 、 近 墨 者 黑 ” 由 A 的 邻居 来 
推断 A 的 类 别 。 该 方法 首先 计算 待 分 类 或 待 搜索 的 人 脸 图 像 与 数据 库 中 已 经 正确 分 类 的 
人 脸 图 像 之 间 的 某 种 度量 , 找到 和 新 样本 距离 最 近 或 最 相似 的 K 个 近邻 样本 , 然后 统计 
这 些 近 邻 样本 的 类 别 属性 ， 来 判定 新 样本 的 类 别 。 相 关 论 文 为 美国 Stanford University 
的 Cover 和 Hart 发 表 于 1967 年 的 Nearest neighbor pattern classification (IEEE 
Transactions on Information Theory)， 被 引用 次 数 已 经 超过 5200 次 。 

具体 地 说 ,假设 数据 库 中 共有 k 个 类 别 的 NN 个 人 脸 图 像样 本 
导 ,… ,区 于 …, 获 ， 其 中 芒 是 来 自 第 wi 个 类 别 的 第 j 个 样本 ，N = ZN 。 对 一 
个 待 判定 类 别 的 新 样本 x， 它 的 K 个 最 近邻 样本 中 属于 每 个 类 别 wi,i=1,2,…,k 的 样本 
数 分 别 为 K1,KK2,…,Kk ， 则 新 样本 的 类 别 判决 规则 为 : 


xewn,if m= max 天 ， 
和 2 


即 如 果 新 样本 的 K 个 近邻 样本 都 属于 同一 类 别 ， 则 新 样本 也 属于 该 类 别 ; 否则 ， 对 
候选 类 别 根据 “少数 服从 多 数 ” 的 投票 规则 确定 新 样本 的 类 别 。 在 KNN 分 类 器 中 ，K 
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值 的 设 定 对 分 类 的 影响 较 大 ，K 值 太 小 容易 受 噪声 的 影响 ，K 值 太 大 则 可 能 包含 太 多 其 
他 类 别 的 样本 ，K 值 的 设 定 一 般 低 于 数据 中 已 知 类 别 样本 的 平方 根 ， 通 过 采用 交叉 检验 
(cross-validation) 来 确定 。 当 K=1 时 ， 就 是 人 脸 识别 中 常用 的 最 近邻 分 类 ; 对 二 维 平 
面 分 类 问题 ，K 通常 取 奇 数 以 避免 投票 时 正 负 两 类 得 票 相同 。 

KNN 分 类 器 是 一 种 基于 直觉 的 简单 分 类 器 , 易于 理解 和 实现 , 也 无 需 估计 参数 和 训练 ， 
在 一 定 程度 上 还 可 以 降低 噪声 样本 对 分 类 的 干扰 。 在 测试 各 种 分 类 器 时 ，KNN 分 类 器 常常 
被 当成 一 个 基准 (baseline) 分 类 器 ， 以 便 和 其 他 更 复杂 的 分 类 器 进行 性 能 对 比 。 

当 已 知 类 别 的 样本 不 平衡 时 ， 如 某 个 类 的 样本 数 很 多 而 其 他 类 的 样本 数 很 少 ， 容 易 
导致 新 样本 的 K 个 近邻 样本 中 大 容量 类 的 样本 数 占 多 数 ， 使 得 新 样本 往 容 量 大 的 类 别 
“聚集 ”。 可 以 通过 对 不 同 距离 的 近邻 样本 赋予 不 同 权 值 的 方式 加 以 改进 ， 如 与 新 样本 
距离 越 近 的 样本 ， 权 值 越 大 ， 权 值 为 距离 平方 的 倒数 。 由 于 需要 计算 每 个 待 分 类 样本 与 
全 体 已 知 类 别 样本 的 度量 函数 以 进行 评分 ， 使 得 KNN 分 类 器 的 计算 量 较 大 ， 内 存 开销 
大 ， 不 适用 于 大 容量 数据 库 的 人 脸 搜 索 ， 可 以 通过 事先 采用 浓缩 技术 或 编辑 技术 ， 去 除 
对 分 类 作用 不 大 的 样本 来 加 以 改进 。 

2. SVM 分 类 器 


SVM (Support Vector Machine， 支 持 向 量 机 ) 分 类 器 是 一 种 监督 式 学 习 的 分 类 器 ， 
属于 线性 分 类 器 。SVM 分 类 器 能 够 在 最 小 化 经 验 误差 的 同时 最 大 化 几何 间隔 ， 称 为 最 
大 间隔 分 类 器 (Maximum Margin Classifier)。SVM 分 类 器 的 基本 思想 是 : 当 不 同类 别 
之 间 的 分 隔 间隔 越 大 时 ， 不 同类 别 的 人 脸 样 本 点 分 得 越 开 ， 分 类 器 的 总 误差 越 小 。 

假设 人 脸 特征 点 用 x e R? 来 表示 ， 这 是 一 个 D 维 向 量 。 在 线性 可 分 的 情况 下 ， 在 
D 维 的 特征 空间 中 存在 一 个 D-1 维 的 超 平面 可 以 把 数据 分 割 开 来 。 

SVM 的 目标 是 最 大 化 几何 间隔 ， 实 际 就 是 寻找 超 平面 ， 使 得 超 平面 到 正 / 负 类 样本 
中 最 近 的 点 都 最 远 ， 从 而 实现 分 隔 的 间隙 越 大 越 好 ， 把 两 个 类 别 的 点 分 得 越 开 越 好 。 要 
实现 超 平面 到 正 / 负 类 样本 中 最 近 的 点 都 最 远 ， 容 易 知道 超 平面 到 正 / 负 类 样本 中 最 近 的 
点 应 该 是 等 间距 的 。 

为 消除 wb 的 尺度 变化 对 超 平面 wx+b=0 的 影响 不妨 设 最 近 的 点 满足 
坊 (W +b)=1， 满 足 该 条 件 的 点 即 是 SVM 中 的 Support Vector (支持 向 量 或 支持 点 )， 
得 到 SVM 的 优化 目标 函数 : 


max 
加 


a yw +b)>1,i=1,2,.…,N 
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其 中 ，2 川 咱 是 两 个 相互 平行 的 支持 平面 之 间 的 距离 ， 思 (wz +b)>1，i=12,…,N 
表示 所 有 样本 点 均 需 大 于 最 近 距 离 。 
上 式 可 以 等 价 为 ，SVM 的 原 问 题 : 


mi 
SL.y(w x +hb) i=1,2,…,N 
这 使 得 后 续 操 作 (如 函数 求 导 等 ) 更 容易 ， 并 且 是 一 个 带 约束 的 二 次 规划 问题 
(Quadratic Programming，QP)， 是 一 个 凸 优化 问题 ， 具 有 全 局 最 优 解 。 
这 个 带 约束 的 优化 问题 可 以 用 拉 格 朗 日 乘 子 法 转化 为 无 约束 的 优化 问题 , 通过 一 些 
系数 把 约束 条 件 和 目标 函数 结合 在 一 起 ， 其 拉 格 朗 日 目标 函数 为 


L(w,b,a) = 了 -Sar +b)-1) 
i=l 


为 求解 该 目标 函数 ， 首 先 求解 L(w,b,a) 关于 w,b 的 最 优 解 ， 为 此 ， 分 别 令 L(w,b,a) 
关于 wp 的 偏 导数 等 于 0， 有: 
em 
元 =0= So 六 三 
将 上 述 表达 式 代 回 L(w,b,a) ， 得 到 对 偶 问题 : 


ew Dp -aa x 


i 


s1.,Q; >0,i= pa N 


N 
Day, = 办 


这 就 是 线性 可 分 情况 下 需要 最 终 优化 的 式 子 。 对 该 式 的 求解 ， 可 以 采用 SMO 
(Sequential Minimal Optimization， 序 列 最 小 优化 ) 方法 等 。 得 到 @&,i=1,2,…,NN 之 后 ， 
即 可 对 新 增 数据 点 x 进行 分 类 ， 将 w= Qiywx 代入 分 类 函数 了 (W) =wx+b， 有 


f=wx+b= Sy +b 
i=1 


当 f(x)<0 时 ，y=--1; 当 J(x)>0 时 ，y=+1。 对 于 新 增 数据 点 x 的 分 类 ， 只 需 计 
算 它 与 训练 样本 点 的 内 积 即 可 。 
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5.5 “大 海 捞 针 ”人 脸 搜索 系统 


“大 海 捞 针 ” 人 脸 搜索 系统 由 国防 科技 大 学 VAP 研究 中 心 设计 ， 采 用 视觉 机 器 学 
习 方法 ， 对 监控 视频 进行 自动 分 析 ， 根 据 某 人 的 人 脸 照 片 、 画 像 、 监 控 人 像 、 目 击 者 描 
述 等 ， 快 速 搜索 人 脸 目标 ， 提 取 图 纹 特 征 ， 与 模板 目标 进行 鲁 棒 比 对 ， 实 现 高 效 搜索 。 


5.5.1 体系 结构 


该 系统 的 搜索 流程 如 图 5.13 所 示 ， 首 先 采 用 聚 类 分 析 和 Adaboost 方法 检测 人 脸 ; 
然后 针对 人 脸 局 部 区 域 设 计 并 训练 多 个 对 应 的 深度 神经 网 络 (DNN)， 用 于 识别 不 同类 
型 的 人 脸 局 部 图 像 并 计算 其 显著 度 ; 最 后 , 依据 显著 度 水 平 动态 综合 人 脸 局 部 比 对 结果 ， 
形成 最 终 的 分 类 ， 完 成 人 脸 搜索 。 


深度 神经 网 络 


是 否 相似 ? NO 


YES 


输出 报警 信息 


图 5.13 “大 海 捞 针 ”人 脸 搜 索 系统 流程 
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5.5.2 关键 技术 


大 规模 人 脸 搜索 系统 应 重点 考虑 处 理 效率 和 质量 ， 关 键 技术 包括 以 下 内 容 。 
1. 基于 聚 类 分 析 和 Adaboost 的 人 脸 快 速 准确 检测 


根据 人 脸 区 域内 灰 度 变化 缓慢 的 特点 ， 首 先 对 图 像 灰 度 进 行 聚 类 分 析 ， 提 取 
相近 的 若干 区 域 ， 然 后 针对 此 类 区 域 采 用 Adaboost 方法 检测 和 定位 人 脸 。 

2. 基于 深度 神经 网 络 的 人 脸 特征 提取 

为 体现 人 脸 局 部 特异 性 ， 将 人 脸 分 割 为 若干 局 部 区 域 ， 对 每 个 区 域 构造 对 应 的 深度 
神经 网 络 进行 特征 提取 。 针 对 产生 的 多 个 DNN 结果 综合 问题 ， 对 各 个 DNN 输出 结果 
进行 动态 加 权 综 合 ， 使 人 脸 的 局 部 特异 性 特征 得 到 体现 。 

3. 基于 深度 神经 网 络 的 人 脸 特 异性 比 对 

在 建立 多 个 人 脸 局 部 DNN 的 基础 上 ， 将 目标 人 脸 和 模板 人 脸 部 件 分 别 输入 DNN， 
输出 两 种 人 脸 各 局 部 部 件 分 类 的 类 型 及 权重 ， 综 合生 成 两 种 人 脸 的 整体 相似 矢量 ， 从 而 
可 计算 其 最 终 相 似 度 ， 实 现 人 脸 搜索 。 


5.5.3 ”算法 伪 代 码 


大 规模 人 脸 搜 索 系 统 的 关键 算法 包括 : 基于 K 均值 的 人 脸 聚 类 、 基 于 Adaboost 的 
人 脸 检测 、 基 于 DNN 的 人 脸 特 征 提 取 和 分 类 。 

算法 5.1 基于 K 均值 的 人 脸 聚 类 

输入 : 当前 帧 像素 点 x， 总 的 聚 类 类 别 k。 

过 程 : 1. 初始 化 : 
随机 选择 初始 聚 类 中 心 CC CC。 
其 中 ml,m2,m3,…,mk 为 各 自 迭 代 运 算 次 数 。 
2. 迭代 运算 : 


本 
尊 
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while C™ #0’,(i=1,2,3,.…,k) do 
for i=1:k 
if d(x,C)=min(d(x,C;),j=1,2,3,…,k) 
Si' ex 
Cr = x,(i=1,2,3,.…,k) 
n ,为 必 补给 别 S 的 像素 点 数目 。 
end if 


end for 
end while 


输出 : 当前 帧 聚 类 结果 {5,5,,…,5,}。 


算法 5.2 ”基于 Adaboost 的 人 脸 检测 


输入 ，{( 轴 (5 和) (zw 外 为 训练 样本 集 ， 其 忠 = 上 …,N 为 训练 


样本 ，y, e {0,1} 为 样本 标签 ，K 为 最 大 迭代 次 数 。 
过 程 : 1. 初始 化 : 
对 标签 为 % =1 的 样本 ， 初始化 其 权 值 为 w=1/21 ;而 对 y=0 的 样本 ， 
朵 =1/2m; 其 中 1,m 为 相应 标签 样本 的 总 数 1+m=N 。 
2. 进行 迭代 运算 : 
for k=1:K 


归 一 化 权 值 ，w = 二 一 


Fw 
i=1 i 


对 每 个 Haar-like 特征 ， 生 成 对 应 的 弱 分 类 器 加 (?),j =1…,M ， 其 中 M 为 矩形 


特征 的 总 数 ; 
计算 相对 于 当前 样本 权 值 的 误差 = 了 | 访 C5) 一 局 |， 选取 对 应 最 小 误差 


值 5 一 argmin 2/ 的 弱 分 类 器 肥 (9) 加 入 强 分 类 器 中 ; 


= 


k Ni-e 
更 新 样本 权 值 ，wi "=u [EE | ， 若 样本 被 有 (中) 正确 分 类 ， 则 e =0; 
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否则 e =1。 
End for 
输出 : 最终 的 强 分 类 器 
noo- 如 果 了 yn Qih (x)> > ,0 /2 
， ”其 他 


其 中 oi =In(1-e*)-Ine** 


算法 5.3 ”基于 DNN 的 人 脸 特征 提取 和 分 类 

输入 : 己 知 分 类 的 训练 图 像 集 {1,7} ， 其 中 I 为 输入 图 像 数据 ，Y 为 对 应 分 类 。 

过 程 : 1. 初始 化 : 

初始 化 : 以 分 布 Ula**,a”) 随机 初始 化 权重 矢量 下 ，b=0， 其 中 
a= max(|Y”™ |,| 7 |) 。 


2. 过 代 运算 : 


while 分 类 正确 率 < C, do 
for i=1:1 
M(x) ex 
for je{,…,i—l} 
似 人 (人 的) Br + Wihr- "(x%) 
(x,) )=sigm(a’ (x, )) 
end for 
o(X)=/ (二 )= sofimax (a™! (% )) 
end for 
计算 当前 的 分 类 正确 率 
Ologo, (5) 


Hl Hl 
bb + € fine-nme Oa (x ) 


六 Ologo, , (*) 
W™ CW + ep ae 一 Ga (x x) —— h(x a 


end while 


输出 : DNN 网 络 内 部 各 层 权 重 和 偏 移 量 。 
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5.5.4 性 能 评价 


大 规模 人 脸 搜 索 系统 性 能 评价 的 常用 准则 是 有 效 性 、 效 率 和 灵活 性 , 搜索 的 有 效 性 ， 
即 搜索 结果 的 正确 与 否 最 重要 。 

有 效 性 评价 包括 使 用 者 的 主观 感受 、 量 化 的 评价 标准 ， 主 观感 受 易 受 个 体 影响 ， 客 
观 评判 标准 主要 有 查 准 率 和 查 全 率 。 

如 图 5.14 所 示 ，Q 为 人 脸 图 像 数据 库 ，A 代表 相关 图 像 的 集合 ，B 代表 搜索 出 的 人 
脸 图 像 集合 。 图 中 a+b+ctd=Q，a+c=A，a+b=B。 


C2 


图 5.14 ” 查 全 率 和 查 准 率 的 关系 


1. 查 准 率 
查 准 率 表示 一 次 搜索 过 程 中 , 系统 返回 的 相似 人 脸 图 像 个 数 占 所 有 返回 人 脸 图 像 个 
数 的 比例 。 正 确 的 主观 相似 人 脸 图 像 越 多 ， 查 准 率 越 高 。 


p(A4UB) __a 


Papl(Als) p(B) a+tb 


2. 查 全 率 
查 全 率 表 示 一 次 搜索 过 程 中 , 系统 返回 的 搜索 结果 中 相似 人 脸 图 像 个 数 占 图 像 库 中 
所 有 主观 相似 人 脸 图 像 个 数 的 比例 。 


_P(4UB) a 
p(4) atc 


R=p(B|4) 


用 查 全 率 R 作为 x 轴 , 查 准 率 P 作为 y 轴 , 绘制 查 准 率 - 查 全 率 曲线 , 即 PVR 曲线 。 
设 PVR 曲线 为 fry)， 则 .fxwy) 与 坐标 轴 围 成 的 面积 为 : 


Sy 二 Try) 
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5 为 PVR 指数 ， 该 指数 越 大 ， 搜 索性 能 越 好 。 查 全 率 反 映 搜索 的 全 面 性 ， 查 准 率 反 
映 搜索 的 准确 性 。 


5.5.5 ”系统 搜索 效果 
搜索 效果 如 图 5.15 所 示 。 


人 瞪 现 过 夺 牌 要 索 行为 搜索 填 标 搜索 人体 柱 而 、 玻 劳 柱 利 湖 汶 设 置 


功能 操作 模板 图 像 


图 5.15 人 像 搜索 效果 


第 6 章 
高 清 卡 口 车 辆 信息 搜索 系统 


随 着 我 国 社会 经 济 的 不 断 发 展 ,汽车 拥有 率 不 断 上 升 ， 交 通 发 展 迅速 ， 车 辆 管理 难 
度 越 来 越 大 ， 交 通 拥挤 、 交 通 事 故 、 违 章 逃 逸 、 汽 车 盗窃 等 发 生 率 显 著 上 升 ， 高 清 卡 口 
车 辆 信息 搜索 系统 可 以 有 效 促 进 车 辆 管理 、 流 量 控制 、 高 速 公 路 收费 登记 和 车 辆 身份 认 


证 等 。 
6.1 车辆 信息 搜索 


高 清 卡 口 车 辆 信息 搜索 是 计算 机 视觉 与 模式 识别 在 交通 领域 中 的 重要 应 用 , 用 于 对 
交通 卡 口 的 高 清 摄像 视频 进行 分 析 ， 自 动 识别 车 牌 和 车 标 等 信息 。 

高 清 卡 口 车 辆 信息 搜索 主要 应 用 于 以 下 3 方面 。 

1. 交通 

口 冯 红 灯 识 别 系统 

自动 抓拍 并 识别 疤 红 灯 的 违章 车 辆 号 牌 信息 ， 将 该 车 违章 行为 记录 在 案 ， 作 为 处 罚 
依据 ， 起 到 规范 行车 及 警示 作用 。 

口 超速 报警 系统 

当 车 速 超过 一 定数 值 时 ， 捕 获 超速 的 违章 车 辆 图 像 ， 识 别 其 车 牌号 码 并 记录 ， 将 车 
牌 信息 上 传 至 管理 部 门 。 
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2; 公安 


口 嫌疑 车 辆 稽查 

高 清 卡 口 摄像 机 不 间断 采集 路 面 车 辆 图 像 ， 相 关 设 备 对 采集 图 像 进行 分 析 ， 识 别 其 
中 的 车 牌 与 车 标 信息 ， 与 通缉 、 挂 失 、 後 事 逃 逸 、 涉 案 车 辆 等 黑 名 单 比 对 ， 一 旦 相符 立 
即 报警 。 


3. 是 收费 站 


口 高 速 公路 收费 系统 

车 辆 进出 高 清 卡 口 均 进 行车 牌 、 车 标 搜索 ， 进 站 与 出 站 的 车 辆 信息 必须 一 致 ， 有效 
防止 倒 卡 、 换 卡 等 偷 逃 过 路 费 的 行为 ， 阻 止 中 途 互 换 入 口 卡 的 逃 费 车 辆 , 减少 车 辆 停靠 
时 间 ， 加 快 通行 速度 。 

口 停车 场 收费 系统 

进 站 与 出 站 的 车 牌 、 车 标 必须 一 致 ， 解 决 因 人 员 作 浆 造 成 的 款项 流失 问题 ， 降 低 车 
辆 被 盗 风 险 ， 减 少 工 作 人 员 劳 动 强度 。 

高 清 卡 口 车 辆 信息 搜索 可 以 加 强 公 路 、 道 路 管理 ,减少 交通 事故 、 预 防 车 辆 被 盗 案 
件 ， 可 提供 全 方位 、 多 方式 、 高 效 可 靠 的 实用 服务 ， 具 有 广阔 的 应 用 市 场 。 


6.2 车牌 搜索 子 系统 
6.2.1 车牌 搜索 概述 


我 国标 准 汽车 牌照 具有 如 下 特点 : 


口 悬挂 位 置 不 统一 ; 

口 由 汉字 、 英 文字 母 和 阿拉 伯 数 字 组 成 ; 

口 根据 车 型 、 用 途 等 规定 多 种 格式 ; 

口 底 色 和 字符 颜色 有 多 种 组 合 ， 如 蓝 底 白字 、 黄 底 黑 字 等 。 


如 图 6.1 所 示 , 车 牌 搜索 分 析 视 频 图 像 文 件 , 首先 检测 并 定位 可 能 存在 的 车 牌 
然后 对 车 牌 字符 进行 分 割 ， 最 后 分 类 车 牌 字符 。 


网 
入 
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度 内 亚 才 
冉 痉 将 丽 
典 阅 这 娄 
be 


图 6.1 车 牌 搜索 流程 
车 牌 检测 与 搜索 具有 如 下 困难 。 
1. 一 步 车 牌 定位 与 字符 分 割 问 题 


在 图 像 中 确定 车 牌位 置 ,提取 出 车 牌 图像 ， 分 割 出 车 牌 字符 。 由 于 车 牌 图 像 采 集 时 
受到 雨天 、 大 雾 、 强 光 等 因素 影响 ， 车 牌 图 像 质量 出 现 不 同 程度 的 差异 ， 车 牌位 置 不 固 
定 ， 车 牌 大 小 各 异 ， 给 车 牌 定位 和 字符 分 割 带 来 困难 。 


2. 高 清 图 像 与 搜索 速度 的 矛盾 


高 清 图像 覆 盖 面 广 ， 可 能 会 同时 出 现 多 个 车 牌 ， 高 清 视频 码 流 大 ， 需 要 资源 多 ， 分 
析 速 度 慢 ， 可 能 导致 出 现 漏 车 现象 ， 难 以 实现 车 辆 抓拍 率 和 车 牌 搜索 准确 率 的 提升 。 


3. 对 污 损 车 牌 的 搜索 效果 不 好 

在 应 用 环境 中 ， 车 牌 难免 出 现 污染 和 磨损 现象 ， 如 何 提 高 车 牌 搜索 的 识 
别 能 力 是 实际 需要 解决 的 难题 。 
6.2.2 ”车牌 区 域 定位 


在 视频 图 像 中 ,根据 车 牌 区 域 特征 判断 是 否 存 在 车 牌 图 像 ， 若 存在 则 将 车 牌 区 域 从 
图 像 中 分 割 出 来 。 如 图 6.2 所 示 为 我 国 常规 车 牌 细节 。 


-下 一 


图 6.2 我 国 常规 车 牌 细节 


从 机 器 视觉 角度 出 发 ， 我 国 车 牌 具 有 颜色 、 形 状 、 投 影 等 直观 特征 : 


口 车 牌 颜色 通常 与 车 身 背 景 、 字 符 颜 色 等 有 较 大 差异 ; 
口 车 牌 具有 连续 的 矩形 轮廓 边框 ， 该 轮 廉 常 因 磨 损 而 不 连续 ; 
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口 车 牌 区 域内 具有 若干 个 基本 呈 水 平 排列 的 字符 ， 字 符 存 在 丰富 的 边缘 ， 呈 现 较 
明显 的 纹理 特征 ; 

口 车 牌 区 域内 字符 之 间 的 间隔 均匀 ， 字 符 和 牌照 底 色 各 自 具有 均匀 的 灰 度 ; 

口 属于 同一 国家 或 地 区 的 车 牌 ， 其 长 宽 比 基本 固定 。 

1. 基于 颜色 特征 的 车 牌 区 域 检测 


以 我 国 大 陆 为 例 ， 现 有 车 牌 主要 包括 4 种 颜色 类 型 . 蓝 底 白字 为 小 功率 汽车 牌照、 


黄 底 黑 字 为 大 功率 汽车 牌照 、 白 底 黑 字 /红字 为 军 警 用 车 牌 、 黑 底 白字 为 国外 驻 华 机 构 所 
车 牌 ， 车 牌 底 色 共有 蓝 、 黄 、 白 、 黑 4 种 颜色 。 通 过 对 大 量 的 真实 车 牌 颜色 进行 分 析 ， 
可 得 出 4 种 色彩 所 限定 的 区 间 范 围 ， 如 表 6.1 所 示 。 


表 6.1 车 牌 区 域 HSV 特征 表 〈(“/” 表 示 无 用 信息 ) 


基于 颜色 特征 的 车 牌 区 域 检测 方法 简便 、 直 观 。 在 HSV 空间 中 ,在 V 分 量 上 设 定 
区 间 范 围 可 以 将 黑色 区 域 识别 出 来 ， 将 其 灰 度 值 设 为 100; 类 似 地 ， 综 合 H、S 分 量 可 
区 分 蓝 、 黄 区 域 ， 将 蓝 色 和 黄色 区 域 的 灰 度 值 分 别 设 为 255 和 200; 综合 V、S 分 量 可 
以 识别 白色 区 域 ， 将 其 灰 度 值 设 为 150; 将 其 他 颜色 信息 设 为 背景 ， 灰 度 值 设 为 0。 经 
过 上 述 处 理 ， 原 始 视频 图 像 被 转化 为 5 级 灰 度 图 ， 可 以 快速 定位 到 与 车 牌 颜色 有 关 的 
域 。 基 于 车 牌 的 4 种 颜色 特征 ， 在 视频 图 像 中 进行 搜索 ， 可 初步 确定 可 能 存在 车 牌 的 
域 。 


区 芭 


算法 6.1 车 牌 检测 颜色 模型 


输入 : 监控 视频 图 像 帧 。 
过 程 : 1. 提取 图 像 RGB 值 ; 
2. 将 RGB 值 转换 为 HSV 值 ; 
3. 依据 帧 图 像 各 像素 HSV 值 、 车 牌 颜色 范围 进行 检测 。 
输出 : 可 能 的 车 牌 区 域 。 
基于 颜色 特征 的 车 牌 定位 方法 主要 依赖 于 车 牌 区 域 的 颜色 属性 ， 原 理 简单 ， 实 现 快 
速 。 在 实际 应 用 中 ,可 能 存在 视频 降 质 导致 色差 ,以 及 当 车 身 、 环境 与 车 牌 颜色 相近 时 ， 
可 造成 车 牌 区 域 检测 的 漏 定位 或 者 错 定 位 。 
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2. 基于 形状 特征 的 车 牌 区 域 检测 


在 待 处 理 视频 图 像 中 ， 搜 索 车 牌 区 域 固 有 的 几何 形状 特征 ， 如 边缘 特征 、 整 体 轮廓 
特征 、 局 部 矩形 连通 区 域 等， 发现 可 能 存在 的 车 牌 区 域 。 

(1) 边缘 定位 方法 

数字 图 像 中 边缘 的 特点 包括 : 其 两 侧 分 属于 两 个 区 域 ， 各 区 域内 部 灰 度 相对 均匀 一 
致 ， 而 这 两 个 区 域 之 间 的 灰 度 存在 较 大 差异 ， 交 界 处 形成 边缘 。 边 缘 检 测 的 目的 是 在 抑 
制 噪声 的 前 提 下 精确 定位 边缘 。 检 测 的 边缘 算 子 有 多 种 ， 如 Roberts 算 子 、Prewitt 算 子 、 
Sobel 算 子 、Laplace 算 子 等 。 上 述 算 子 利用 物体 边缘 处 灰 度 变化 相对 剧烈 的 特点 ， 可 以 
检测 图 像 中 可 能 存在 的 边缘 。 各 算 子 对 不 同 边缘 类 型 的 敏感 程度 不 同 ， 检 测 结 果 也 有 差 
别 。 图 6.3 是 针对 某 由 视频 图 像 ， 利 用 上 述 算 子 进行 边缘 检测 后 的 效果 对 比 。 


Robert 算 子 


Sobel 算 子 拉 普 拉 斯 算 子 


图 6.3 边缘 检测 


Robert 算 子 利用 局 部 方差 寻找 图 像 边 缘 ， 检 测 效果 比较 精确 ; Prewitt 算 子 和 Sobel 
算 子 对 噪声 具有 一 定 的 抑制 能 力 ， 但 不 能 完全 排除 噪声 影响 ， 拉 普 拉 斯 算 子 采用 二 阶 微 
分 算 子 ， 对 图 像 中 的 阶 跃 型 边缘 点 检测 准确 且 检测 结果 具有 旋转 不 变性 ， 但 该 算 子 容易 
丢失 部 分 边缘 的 方向 信息 ， 同 时 抗 噪 能 力 较 差 。 针 对 不 同 的 环境 和 要 求 ， 应 合理 选择 恰 
当 的 算 子 用 于 边缘 检测 ， 才 能 达到 更 好 的 效果 。 当 检测 到 边缘 之 后 ， 再 具体 研究 各 边缘 
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之 间 的 方向 、 位 置 关 系 ， 当 搜索 到 大 致 围 成 矩形 框 的 四 条 边缘 时 ， 则 可 初步 定位 该 四 条 
边缘 围 成 的 矩形 区 域 即 为 车 牌 区 域 。 定 位 流程 如 图 6.4 所 示 : 


图 6.4 基于 边缘 检测 的 车 牌 定 位 


边缘 定位 方法 的 定位 准确 率 较 高 ， 能 有 效 降 低 噪声 干扰 ， 可 适用 于 存在 多 个 车 牌 的 
视频 图 像 。 但 是 该 方法 耗 时 较 长 ， 并 且 对 车 牌 褪 色 和 图 像 降 质 的 情况 ， 由 于 检测 不 到 牌 
照 边缘 会 导致 定位 失败 ， 当 存在 外 界 干扰 以 及 车 牌 倾斜 时 ， 定 位 后 的 区 域 比 车 牌 稍 大 。 


(2 ) 模板 匹配 方法 

在 实际 应 用 中 ， 摄 像 机 高 度 和 角度 确定 后 ， 获 取 的 图 像 就 相对 稳定 ， 车 牌 的 大 小 变 
化 范围 较 小 。 因 此 可 以 定义 一 个 尺寸 略 大 于 实际 图 像 中 待 处 理 牌 照 大 小 的 模板 ， 并 用 该 
模板 对 整个 图 像 逐 点 扫描 ， 统 计 各 个 模板 区 域内 边缘 点 的 个 数 。 如 果 某 一 区 域内 的 边缘 
点 个 数 达 到 一 定 的 比例 ， 就 认为 该 区 域 是 一 个 牌照 的 候选 区 域 。 由 于 对 整 幅 图 进行 搜索 
耗 时 较 长 ， 为 了 加 快 搜索 速度 ， 可 采用 分 块 策略 。 具 体 步 骤 如 下 。 


207 假设 实际 图 像 中 车 牌 长 宽 统计 信息 为 mxn 像素 , 将 模板 预 设 为 A, 尺寸 为 
m/8xn/8 像素 ， 并 将 模板 内 的 值 初始 化 为 1; 

E202 假设 待 处 理 视频 图 像 分 辨 率 为 Mx N 像素 ,将 其 分 成 8x8 的 块 ,计算 每 块 
内 的 边缘 点 个 数 ， 将 其 存 入 一 个 矩阵 B 中 ，B 为 能 量 块 矩阵 ， 维 数 为 M/8xN/8; 

G203 用 模板 A 在 B 中 逐 像素 点 进行 卷 积 运算 ,计算 B 中 每 个 点 对 应 的 值 ， 并 
将 其 存 入 矩阵 C 中 . 此 值 越 大 , 则 原 图 对 应 区 域 边缘 点 个 数 越 多 ,判断 其 为 候选 牌照 区 
域 。 


在 实际 应 用 中 , 对 于 得 到 的 M/h 个 候选 牌照 区 域 ， 需 按照 矩阵 C 值 的 大 小 和 位 置信 
息 排 序 : 将 排序 靠 前 的 几 个 作为 最 终 的 车 牌 候选 区 域 。 排 序 方法 可 以 先 按照 矩阵 C 值 的 
大 小 排序 ， 得 到 几 个 最 大 可 能 的 牌照 区 域 ， 然 后 再 按照 位 置信 息 进行 排序 ， 也 可 以 将 位 
置 和 C 中 的 值 加 权 平均 处 理 后 排序 。 

在 牌照 区 域 的 同行 高 度 上 以 及 相 邻 的 上 下 区 域 干扰 信息 较 少 ， 牌 照 区 域 会 落 在 M/h 
个 候选 区 域 之 中 ， 偏 下 方 的 候选 区 域 为 牌照 区 域 的 可 能 性 较 大 。 图 6.5 为 按照 模板 匹配 
方法 进行 车 牌 定位 的 效果 图 。 


156 视觉 大 数据 基础 与 应 用 


边缘 图 像 提取 到 三 个 候选 区 域 最 终 确 定 的 车 牌 区 域 


图 6.5 模板 匹配 车 牌 定位 方法 


(3) 纹理 特征 方法 

纹理 反映 物体 表面 颜色 或 灰 度 的 某 种 变化 ， 与 物体 本 身 属性 相关 ， 纹 理 特 征 可 直观 
地 描述 区 域 的 平滑 、 稀 疏 、 规 则 性 等 特性 。 

我 国 车 辆 边缘 在 灰 度 上 呈现 屋顶 状 边缘 。 在 车 牌 区 域内 部 ， 字 符 和 牌 底 的 灰 度 均匀 
地 呈现 波峰 波 谷 ， 形 成 比较 稳定 的 纹理 特征 。 图 6.6 显示 的 是 车 牌 区 域 与 非 车 牌 区 域 图 
像 灰 度 的 差异 。 
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非 车 牌 区 域 图 像 及 灰 度 特征 
图 6.6 车 牌 及 非 车 牌 区 域 图 像 灰 度 特征 对 比 
基于 灰 度 纹理 特征 进行 车 牌 定位 的 处 理 流程 如 图 6.7 所 示 。 


搜索 到 车 牌 区 域 ? 
YES 
搜索 到 车 牌 区 域 ? 


6.7 基于 纹理 特征 的 车 牌 定位 
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在 该 处 理 中 ， 基 于 灰 度 图 像 进 行 行 扫描 ， 找 出 图 像 中 每 一 行 可 能 的 车 牌 线段 ， 记 录 
它们 的 起 始 坐标 和 长 度 。 如 果 连 续 若 干 行 均 存 在 车 牌 线 段 ， 且 行 数 大 于 某 一 预 设 阔 值 ， 
则 可 判断 为 在 行 方向 检测 到 一 个 车 牌 候选 区 域 ， 并 记录 该 候选 区 域 的 起 始 行 和 高 度 。 针 
对 已 检测 到 可 能 存在 车 牌 的 区 域 进行 列 扫描 ， 获 得 该 车 牌 候选 区 域 的 起 始 行 和 高 度 ， 结 
合 前 一 步骤 获取 的 起 始 列 坐标 和 长 度 ， 从 而 确定 一 个 车 牌 区 域 ; 继续 在 其 他 可 能 存在 的 
车 牌 区 域 进行 类 似 搜索 ， 直 至 遍历 完成 所 有 的 车 牌 候选 区 域 。 

纹理 特征 方法 对 于 牌照 倾斜 、 变 形 、 光 照 不 均 具 有 较 好 的 适应 性 ， 但 对 噪声 比较 敏 
感 。 针 对 背景 复杂 的 图 像 ， 可 以 将 纹理 特征 与 垂直 投影 相 结合 ， 有 效 地 降低 复杂 背景 的 
干扰 。 

3. 基于 投影 特征 的 车 牌 区 域 检 测 


车 牌 区 域 有 丰富 密集 的 边缘 信息 ， 通 过 投影 转换 可 表现 出 明显 的 形态 特征 。 牌 照 区 
域 的 水 平 投影 表现 为 连续 的 波峰 区 域 ， 区 域内 部 没有 大 的 落差 ， 波 形 平缓 ， 与 其 他 小 的 
波峰 区 域 有 明显 的 波 谷 间隔 。 牌 照 区 域 的 垂直 投影 表现 为 一 组 密集 的 小 峰 群 ， 各 个 小 波 
峰 区 域 间距 较 小 ， 符 合 波峰 合并 条 件 ， 可 以 合并 成 一 个 大 的 波峰 区 域 。 这 组 小 峰 群 与 其 
他 峰 群 有 较 大 的 间隔 ， 可 以 明显 区 分 。 依 据 这 些 投影 特征 ， 可 以 对 牌照 进行 水 平和 垂直 
定位 。 图 6.8 为 含有 车 牌 的 视频 图 像 投 影 特征 。 


| 如 出 
原始 图 像 投影 特征 
图 6.8 车 牌 视 频 图 像 投影 
投影 方法 主要 依据 投影 图 像 波 峰 形态 特征 进行 处 理 。 
首先 ， 在 原 车 牌 图 像 上 进行 垂直 边缘 检测 ， 将 垂直 边缘 投影 到 纵 轴 上 。 和 车 牌 区 域 因 
为 垂直 边缘 密集 ， 因 此 在 对 应 位 置 投影 存在 尖峰 ， 并 且 在 车 牌位 置 以 外 的 区 域 曲 线 较 平 
缓 ， 没 有 明显 尖峰 。 基 于 该 特征 ， 沿 由 下 向 上 的 方向 ， 设 置 适当 闭 值 搜索 投影 曲线 中 的 
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有 效 波峰 ， 即 可 定位 出 车 牌 区 域 的 垂直 位 置 。 

然后 ， 对 提取 到 的 区 域 进行 水 平定 位 。 其 方法 是 将 垂直 定位 得 到 的 车 牌 区 域 图 像 与 
拉 普 拉 斯 算 子 进行 卷 积 运算 ， 然 后 将 该 边缘 图 像 进 行 水 平 投影 ， 在 没有 车 牌 的 位 置 投影 
曲线 值 相 对 较 小 ， 且 变化 平缓 ， 反 之 有 车 牌 的 位 置 投影 曲线 值 较 大 ， 且 变化 剧烈 。 该 投 
影 图 中 最 大 的 波峰 位 置 即 为 对 应 车 牌 的 左右 边界 。 


6.2.3 ”车 牌 字符 分 割 

可 将 完整 车 牌 图 像 分 割 为 单个 字符 图 像 ， 以 缩小 识别 范围 ， 提 高 识别 质量 。 常 用 的 
车 牌 字符 分 割 方法 包括 基于 结构 特征 、 基 于 形态 特征 以 及 基于 投影 的 分 割 方法 。 

1. 基于 结构 特征 的 分 割 方 法 

我 国 车 牌 由 汉字 、 数 字 和 字母 组 成 ， 相 对 数字 和 字母 而 言 ， 汉 字 具 有 更 明显 的 结构 
特征 差异 ， 可 将 车 牌 字符 分 为 汉字 和 非 汉 字 两 大 类 。 
(1) 汉字 字符 分 割 
如 图 6.9 所 示 ， 车 牌 字符 中 的 汉字 结构 关系 可 分 为 上 下 、 左 右 与 包围 关系 。 


J . 由 加 


上 下 关系 左右 关系 包围 关系 


图 6.9 汉字 结构 关系 
将 汉字 的 部 件 按 左右 或 上 下 顺序 排列 , 其 高 度 和 宽度 在 整个 汉字 字符 中 占 主要 成 分 
的 部 件 为 汉字 的 主体 部 件 ， 如 “ 粤 ” 的 上 部 、“ 辽 ”的 左下 部 、“ 汗 ”的 右 部 为 主体 部 件 。 
如 图 6.10 所 示 ， 利 用 汉字 的 结构 关系 与 主体 部 件 ， 可 对 汉字 进行 分 割 。 
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相 邻 结构 部 件 
是 否 满足 长 宽 条 件 ? 
YES 


S 


YE 
汉字 分 割 结束 


图 6.10 基于 结构 特征 的 汉字 字符 分 割 
汉字 字符 的 分 割 步 骤 如 下 。 
C01 获取 车 牌 连通 域 属性 
在 二 值 车 牌 图 像 上 ， 首 先 搜索 并 获取 车 牌 图 像 的 连通 域 信息 ， 记 录 每 个 连通 域 的 属 
性 : 右边 界 、 左 边界 、 上 边界 、 下 边界 、 像 素数 目 、 宽 度 、 高 度 、 水 平 中 心 等 。 
利用 连通 域 的 属性 和 车 牌 字符 的 特征 确定 车 牌 字符 串 的 以 下 属性 值 : 


CH,CW xsCH/2 和 CWZ 


其 中 ，CH 为 字符 高 度 ，C 刺 为 常规 字符 〈 除 1 外 ) 的 宽度 ，CZ 为 连通 域 的 水 平 
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中 心 距离 。 

在 车 牌 字符 中 ， 数 字 和 字母 字符 都 具有 单 连 通 特性 ， 汉 字 的 主体 部 件 具 有 单 连 通 特 

人 ER6? 选择 汉字 主体 部 件 

如 果 某 个 连通 域 满足 下 面 两 个 条 件 之 一 ， 则 认为 是 汉字 字符 的 主体 部 件 。 

a、0.5XCW< 宽度 <1.2XCW，0.5XCH< 高 度 <1.2XCH。 

b、2XCW/3 < 宽度 <1.2XCW，1XCH/3 < 高 度 <1.2xCH。 

703 确定 非 主 体 部 件 

根据 组 成 汉字 部 件 的 结构 关系 (上 下 、 左 右 、 包 围 ) 确 定 组 成 汉字 的 其 他 部 件 。 步 骤 

如 下 。 

a. 向 汉字 结构 中 加 入 新 部 件 ， 字 符 宽度 在 (0.8xCW,1.2xCW) 之 间 ; 

b. 依次 搜索 与 主体 部 件 是 左 包 围 、 右 包围 、 上 下 和 左右 关系 的 部 件 。 假如 合并 后 的 

汉字 满足 条 件 a， 将 其 判断 为 汉字 区 域 。 

004 汉字 验证 

在 搜索 完成 组 成 汉字 的 所 有 部 件 之 后 ， 即 对 分 割 后 的 汉字 进行 识别 。 如 果 字 符 识别 

结果 其 置信 度 >7B， 认 为 检测 到 汉字 。 若 置信 度 <7B， 则 步骤 2 选择 的 部 件 不 是 汉字 的 
主体 部 件 , 取 下 一 个 可 能 为 主体 部 件 的 连通 域 作为 主体 部 件 , 回 到 步骤 3 重复 定位 汉字 。 

(2) 非 汉字 字符 分 割 

非 汉字 字符 即 英文 和 数字 字符 都 具有 单 连 通 特 性 ， 高 度 在 (0.8xCH,1.2xCH) 范围 

内 , 与 汉字 之 间 的 间隔 应 该 在 (0.8x CWZ,1.2xCWZ) 范围 内 ,从 左 至 右 寻 找 符 合 该 范围 的 
连通 区 域 进行 分 割 。 

在 实际 处 理 过 程 中 ， 非 汉字 字符 区 域 可 能 存在 以 下 3 种 情况 : 

口 没有 满足 条 件 的 连通 域 ， 则 判断 该 区 域 无 字符 ; 

口 仅 检 测 到 一 个 连通 域 ， 检 查 其 宽度 是 否 在 (0.8xCW,1.2xCW) 范 围 内 ， 如 果 满 足 
则 该 连通 域 可 能 为 字符 区 域 ， 否 则 如 果 宽 度 大 于 1.2x CWW， 则 对 该 区 域 进 一 步 
进行 分 裂 ， 逐 个 判别 是 否 为 字符 ; 

口 具有 多 个 连通 域 ， 应 按照 上 述 方法 对 于 连通 域 逐 个 进行 第 选 。 

基于 结构 特征 的 分 割 方法 利用 结构 特征 对 汉字 进行 分 割 ， 而 针对 数字 和 字母 部 分 ， 

主要 依据 连通 域 特性 实现 分 割 。 该 方法 实现 简单 ， 速 度 较 快 ， 不足 之 处 在 于 对 字符 区 域 
长 宽 的 计算 方法 比较 简单 ， 精 确 度 不 高 。 
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2. 基于 形态 特征 的 分 割 方法 

我 国 车 牌 图 像 具 有 以 下 形态 特征 : 

口 车 牌 长 宽 比 固定 ， 字 符 高 宽 比 是 2:1， 字 符 颜 色 和 底 色 对 比 度 高 ; 

口 由 多 个 字符 组 成 ， 字 符 内 部 笔画 连续 ， 字 符 之 间 存 在 间 障 ; 

口 在 倾 儿 、 扭 曲 、 污 损 的 情况 下 ， 仍 然 保 持 近 似 长 方形 。 

根据 车 牌 的 形态 特征 ， 可 以 将 车 牌 图 像 划分 成 若干 具有 一 致 性 形态 特征 的 像素 区 
域 ， 实 现 车 牌 字符 分 割 。 


算法 6.2 ”基于 形态 特征 的 车 牌 字符 分 割 


输入 : 车 牌 图 像 。 
过 程 : 1. 搜索 车 牌 图 像 ， 生 成 列 曲线 图 Ext[7] ，j 为 列 序号 : 
[GD=l 
He)]= 人 -iT,f(i,))=0 


ij) 代表 图 像 在 (ij) 处 的 灰 度 值 ，Kiy)=1 表示 有 字符 笔画 ，fij)=0 则 没 
有 ，iB8、i 分 别 为 车 牌 的 上 下 边界 ; 
2. 删除 车 牌 图 像 部 分 的 边框 ， 计 算 阔 值 7=0.4x(i8-i7) ; 
3. 通过 阐 值 T 分 割 si[j] 曲线 ， 确 定 每 个 字符 的 分 割 位 置 。 
输出 : 分 割 后 的 字符 图 像 。 
3. 基于 投影 法 的 分 割 方法 
在 二 值 车 牌 图 像 的 垂直 投影 图 中 ， 搜 索 最 优 的 投影 点 ， 获 取 当 前 字符 宽度 ， 以 此 投 
影 点 为 搜索 起 始点 ， 向 左右 两 边 搜索 ， 结 合 垂直 投影 极 小 值 点 和 宽度 信息 ， 实 现 字符 分 
制 。 
基于 二 值 化 车 牌 图 像 DGi, jie[y0,7H,7s[x0,xll] ， 该 算法 描述 如 下 。 


《ETO 计算 二 值 车 牌 图 像 的 秋 直 投影 
CH(1,N)= Dy D(i,)), e[x0,xl] 


C20 搜索 最 优 投影 点 ， 获 取 字 符 宽度 . 
在 垂直 投影 图 中 , 按照 / 自 x0 至 xl 搜索 ， 当 满足 下 列 最 优 投影 点 条 件 时 终止 搜索 : 
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CH(L)<th_L,jelx_t-5,x_t-1] 
CH(I,))>th_H,jelx_it,x_t+20] 


其 中 ，th_ 工 为 车 牌 投影 波 谷 阔 值 ，th_ 为 车 牌 投影 波峰 阐 值 ，x_1 为 最 优 投 影 点 。 
以 x_t 为 起 始点 , 分 别 向 左右 两 边 搜索 , 当 搜索 到 第 一 个 波峰 之 后 的 第 一 个 波 谷 x zl 时 ， 
当前 字符 宽度 为 : 


C w=x tl-x_1 


如 果 搜 索 完 ， 没 有 找到 x_t， 则 修改 加 KL、th_H， 重 复 步 又 2。 

C03 结合 字符 宽度 搜索 其 他 分 割 点 

以 x_1 为 起 始点 ,分别 向 左右 两 边 搜索 其 余波 谷 ， 当 相 邻 波 谷 点 之 间距 离 与 C_w 相 
差 较 小 时 ， 则 认为 当前 波 谷 为 分 割 点 ， 在 车 牌 区 域内 实现 所 有 字符 的 分 割 。 

基于 投影 法 的 分 割 方法 的 字符 分 割 效果 如 图 6.11 所 示 , 其 中 黑色 竖 线 处 为 搜索 到 的 
最 优 投影 点 。 


ANC 


车 牌 分 割 图 像 


i NG 
0 20 如 Eu B80 10 120 1 和 160 


图 6.11 基于 最 优 投影 点 的 字符 分 割 
6.2.4 索 车 牌 字符 识别 


车 牌 字符 识别 属于 模式 识别 和 人 工 智能 , 经 过 分 析 和 判断 将 当前 字符 归 类 为 预先 已 
知 的 标准 字符 。 与 其 他 的 字符 识别 系统 相 比 ， 我 国 车 牌 字符 识别 有 其 自身 的 特点 ， 主 要 
体现 在 以 下 方面 : 

口 车 牌 字 符 包括 汉字 、 字 母 和 数字 ， 总 计 90 个 左右 的 字符 ; 

口 字 型 统一 ， 大 小 一 致 ， 相 对 于 普通 汉字 识别 难度 较 低 ; 

口 车 牌 搜索 要 求实 时 性 ， 识 别 算 法 必须 保证 高 速度 ; 

口 要 求 有 较 高 的 识别 率 ， 最 低 限 度 减 小 误 识 率 。 
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车 牌 字符 识别 的 关键 就 是 基于 车 牌 搜索 的 具体 特点 ， 选 择 适 用 于 上 述 特 点 的 分 类 
方法 ， 常 用 方法 有 模板 匹配 、 结 构 特 征 和 统计 特征 等 方法 。 

1. 模板 匹配 识别 方法 

车 用 0 表示 背景 ，!1 表示 字符 ， 对 汽车 牌照 涉及 的 每 个 字符 均 建立 标准 的 模板 也 。 
令 待 识别 图 像 为 X， 大 小 均 为 MxXN， 将 X 与 每 个 标准 字符 模板 进行 匹配 ， 分 别 求 出 它 
们 的 相似 度 Sr: 


其 中 ，7; 和 X 均 为 像素 的 二 值 点 阵 ，XX 歼 表示 矩阵 和 怎 阵 的 点 乘 ， 即 矩阵 中 对 应 
位 置 的 元 素 相 乘 。 上 式 表示 标准 模板 和 竺 识别 字符 图 像 对 应 点 均 为 “1” 像 素 的 数目 与 
标准 模板 上 “1” 像 素 的 数目 之 比 。 

基于 上 式 计 算 待 识别 字符 与 所 有 模板 字符 的 相似 度 ， 将 最 高 值 作为 其 识别 结果 。 

模板 匹配 方法 实现 简单 ， 识 别 速度 快 ， 受 噪声 影响 小 ， 但 是 较 难 准确 地 提取 特征 ， 
不 能 有 效 地 保证 识别 率 。 

2. 结构 特征 识别 方法 


中 国 大 陆 汽车 牌照 中 使 用 的 字符 包括 59 个 汉字 、25 个 英文 字母 (I 除外) 和 10 个 
阿拉 伯 数 字 3 种 类 型 ， 共 94 个 字符 ， 都 是 印刷 体 ， 结 构 固 定 、 笔 画 规范 。 全 部 字母 和 
数字 的 笔画 共有 两 大 类 : 直 笔 画 和 弧 笔 画 。 直 笔画 可 分 为 横 笔画 、 竖 笔画 、 左 斜 笔画 和 
右 斜 笔画 。 弧 笔画 是 一 条 曲线 段 ， 可 分 为 两 类 : 开 弧 笔画 和 闭 弧 笔画 。 所 谓 开 缴 笔 画 指 
该 弧 笔 画 没有 形成 封闭 环 ， 如 字母 C; 而 闭 弧 笔画 则 为 封闭 环 ， 如 数字 0。 

在 字符 图 像 的 结构 特征 中 ， 封 闭环 可 作为 字符 识别 的 重要 依据 ， 封 闭环 的 搜索 流程 
如 图 6.12 所 示 。 
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读 入 字符 图 像 | 


NO 
所 有 0 像素 点 
均 属于 背景 1 或 背景 2? 


图 6.12 封闭 环 搜索 流程 


封闭 环 个 数 为 2 


在 获取 到 字符 图 像 中 的 封闭 环 信息 之 后 ， 可 以 采用 知识 树 方法 ， 结 合 封闭 环 以 及 字 


符 笔画 特征 ， 对 字母 和 数字 逐 级 分 类 识别 。 


基于 结构 特征 的 字符 识别 方法 的 核心 是 通过 判定 树 对 字符 群体 层 层 分 类 ， 从 树干 开 


始 逐 步 缩小 识别 范围 ， 直 到 最 后 只 有 一 类 字符 ， 即 识别 成 功 。 
3. 统计 特征 识别 方法 


统计 方法 由 于 具有 良好 的 鲁 棒 性 和 抗 干扰 性 等 优点 ， 得 到 了 深入 研究 和 广泛 应 用 。 
其 中 人 工 神 经 网 络 和 支持 向 量 机 〈SVMD 在 车 牌 字符 识别 研究 领域 取得 了 较 好 效果 ， 能 


有 效 地 提高 识别 率 。 
(1) 神经 网 络 方法 


如 图 6.13 所 示 ， 首 先 提取 标准 字符 的 特征 ， 利 用 其 特征 训练 预先 设置 的 神经 网 络 ; 


然后 提取 待 识别 字符 的 特征 ， 最 后 将 特征 输入 人 工 神经 网 络 ， 输 


即 为 识别 结果 。 


在 神经 网 络 识别 方法 中 ,神经 网 络 的 层 数 和 各 层 神 经 元 的 个 数 ， 直 接 影 响 处 青 
和 识别 正确 率 ， 层 数 和 各 层 神经 元 的 个 数 越 多 ， 识 别 正确 率 越 高 ， 但 是 这 制约 了 识别 速 


速度 
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度 。 影 响 成 功率 的 因素 还 包括 训练 样本 的 数量 以 及 训练 次 数 ， 必 须 具备 一 定数 量 的 训练 
样本 和 次 数 ， 才 能 保证 识别 正确 率 。 在 实际 应 用 中 应 根据 处 理 结果 适当 调整 各 种 参数 ， 
兼顾 识别 速度 与 质量 。 


提取 字符 特征 


训练 


待 识别 字符 | 提取 字 
符 特征 


图 6.13 ”基于 神经 网 络 的 车 牌 字符 识别 


(2) SVM 方法 

支持 矢量 机 (Support Vector Machine，SVM) 利用 Vapnik 等 提出 的 统计 学 习 理 论 
能 较 好 地 弥补 小 样本 学 习 和 神经 网 络 方法 的 不 足 。 

SVM 针对 二 分 类 问题 ， 车 牌 字符 识别 需要 解决 多 分 类 问题 ， 主 要 有 3 种 方法 实现 
SVM 的 多 分 类 : 逐一 鉴别 法 、 一 一 区 分 法 和 M-ray 法 。 其 中 逐一 鉴别 法 构造 子 分 类 器 
相对 简单 ， 且 计算 量 适 中 ， 可 采用 该 方法 进行 车 牌 搜索 。 

我 国 大 陆 车 牌 字符 通常 由 汉字 、 英 文字 母 和 数字 组 成 ， 如 果 将 所 有 字符 混在 一 起 分 
类 ， 将 会 降低 识别 率 ， 并 增加 训练 难度 和 时 间 。 我 国 大 陆 常 用 车 牌 字符 满足 如 下 要 求 : 
第 1 个 字符 为 汉字 , 第 2 个 字符 为 大 写 英文 字母 , 第 3~7 个 字符 为 大 写 英文 字母 或 数字 。 
因此 可 将 子 分 类 器 分 为 两 组 : 汉字 组 分 类 器 组 、 英 文字 母 及 数字 组 分 类 器 。 对 每 个 分 类 
器 ， 首 先 应 建立 具有 比较 满 杯 的 字符 样本 库 ， 然 后 对 样本 数据 进行 训练 ， 得 到 各 类 字符 
对 应 的 判别 函数 。 根 据 序 号 ， 将 分 割 后 的 单个 字符 送 到 相应 的 分 类 器 ， 各 个 判别 函数 对 
其 进行 分 类 ,， 最 终 输出 识别 分 类 结果 。 

与 神经 网 络 方法 相 比 ，SVM 不 仅 所 需 的 样本 少 ， 而 且 泛 化 能 力 好 ， 容 易 控制 。 


6.3 ”车 标 搜索 子 系统 
套 牌 车 严重 影响 车 牌 的 唯一 性 ,扰乱 社会 秩序 ， 为 社会 安全 埋 下 了 隐患 。 如 图 6.14 


所 示 ， 车 标 也 是 车 辆 的 显著 标识 ， 车 标 种 类 繁多 ， 大 小 各 异 ， 位 置 不 确定 。 大 部 分 车 标 
位 于 散热 器 的 中 心 位 置 ， 少 部 分 车 标 位 于 散热 器 的 顶端 。 
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图 6.14 车 标示 例 


车 标 搜索 与 车 牌 搜索 都 是 智能 交通 系统 的 重要 组 成 部 分 , 如 图 6.15 所 示 , 车 标 搜索 
利用 图 像 采集 设备 采集 车 辆 正面 图 像 ， 由 计算 机 对 车 标 进 行 定位 和 识别 。 


图 6.15 车 标 搜索 流程 


6.3.1 车 标定 位 


车 标定 位 是 车 标 搜索 的 基础 , 如 图 6.16 所 示 , 首先 借助 车 牌 定位 信息 进行 车 标 粗 定 
位 ; 然后 对 粗 定 位 区 域 进行 边缘 检测 ， 得 到 车 标的 边缘 轮 廊 图 ; 接着 对 边缘 轮廓 图 进行 
背景 判断 分 析 ， 去 除 背 景 干扰 ; 最 后 采用 数学 形态 学 滤波 车 标 图 像 ， 即 二 值 闭 运算 ， 实 
现 车 标的 精确 定位 。 
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二 值 闭 运算 
车 标 精确 定位 


图 6.16 车 标定 位 流程 
1. 车 标 区 域 粗 定位 
车 标 一 般 位 于 中 轴线 之 上 ， 根 据 经 验 可 以 粗 定位 车 标 区 域 ， 缩 小 车 标 范围 。 车 标 粗 
定位 块 的 大 小 为 : 宽度 从 车 脸 宽 度 的 1/3 开始 ， 到 2/3 结束 ; 高 度 通 过 投影 确定 。 
如 图 6.17 所 示 ，a 为 车 脸 图 像 ，b 为 车 脸 图 像 的 中 间 1/3， 用 作 投 影 块 ，c 为 对 应 的 
Sobel 边缘 图 ; d 为 其 二 值 图 ， 做 投影 分 析 ; e 为 车 标 粗 定 位 图 。 


图 6.17 车 标 粗 定位 
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2. 车 标准 确定 位 

车 标 背景 大 部 分 都 是 水 平 或 垂直 边缘 性 很 强 的 散热 片 、 光 滑 的 车 身 表 面 ， 大 多 数 车 
标 在 这 两 个 方面 都 具有 很 强 的 边缘 特性 ， 可 以 在 水 平和 垂直 方向 检测 边缘 ， 抑 制 背 景 ， 
获取 车 标的 边缘 轮廓 特征 。sobel 边缘 检测 算 子 有 垂直 和 水 平 两 个 方向 的 模板 ， 可 以 
于 检测 图 像 中 垂直 和 水 平方 向 的 边缘 ,精度 较 高 ,容易 实现 ， 能 进一步 抑制 噪声 的 干扰 。 

如 图 6.18 所 示 ， 以 散热 器 为 横向 纹理 的 大 众 和 散热 器 为 竖 直 纹理 的 别克 车 标 为 例 ， 
分 别 采用 Sobel 算 子 的 垂直 模板 、 水 平 模板 检测 边缘 。 


图 6.18 sobel 边缘 检测 


在 边缘 检测 之 后 ， 散 热 器 的 纹理 基本 滤 除 ,但 是 还 有 少许 干扰 。 如 图 6.19 所 示 ， 对 
于 sobel 边缘 检测 后 的 车 标 图 像 ， 进 行 闭 运 算 操作 ,采用 和 矩形 结构 元 素 进行 膨胀 和 腐蚀 。 


图 6.19 ” 闭 运 算 效 果 
在 删除 面积 较 小 的 孤立 点 之 后 ， 效 果 如 图 6.20 所 示 。 
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图 6.21 车 标定 位 效果 


6.3.2 ”车 标 搜索 


车 标 搜索 的 关键 在 于 如 何 提 取出 合理 特征 以 及 选择 何 种 分 类 方法 , 车 标 搜索 存在 许 
多 问题 。 
车 辆 类 别 增长 速度 快 ， 模 板 库 需要 不 断 变化 ; 
近似 车 标 越 来 越 多 ， 难 以 自动 区 分 ; 
车 标 区 域 的 分 辨 率 偏 低 ， 特 征 提取 困难 ; 
光照 变化 大 、 角 度 易 偏差 、 背 景 复杂 。 

1. 基于 边缘 方向 直方 图 的 车 标 搜索 方法 

灰 度 直方 图 主要 体现 图 像 的 灰 度 分 布 情况 ， 受 光照 的 影响 较 大 ; 边缘 方向 直方 图 描 
述 的 是 图 像 边缘 的 统计 特征 , 可 以 更 本 质地 提取 目标 的 形状 和 边缘 特征 , 受 光照 的 影响 小 。 


口 
口 
口 
口 
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算法 6.3 ”车 标 边缘 方向 直方 图 模型 
输入 : 车 标 灰 度 图 像 。 


过 程 :1. 在 灰 度 目标 图 像 /(x,y) 中 采 上 
向 上 的 变化 量 必 和 中， 


2. 计算 各 个 像素 点 的 边缘 方向 角 


边缘 算 子 ， 得 到 各 个 像素 点 在 又 和 了 方 


的 弧 值 8: 


O(x,y)=argtg(dx/ dy) 


3. 将 边缘 方向 角 的 弧 值 9 量化 为 从 0 到 工 ]; 
4. 将 量化 后 的 边缘 方向 角 弧 值 9 进行 直方 图 统计 , 得 到 h(i)(i=0, 1,…,T-1)。 


输出 : 车 标 边缘 方向 直方 图 。 


图 6.22 是 几 类 车 标 样本 的 边缘 方向 直方 图 。 


(a) (b) 


(qd) 


四 叫 


图 6.22 ”车 标 图 像 的 边缘 方向 直方 图 
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其 中 (a)、(b)、(c) 是 大 众 车 标的 边缘 方向 直方 图 ，(d)、(e)、(G 是 欧宝 车 标的 边缘 方 
向 直方 图 ，(g)、(h)、() 是 奥迪 车 标的 边缘 方向 直方 图 。 

经 实验 及 观察 发 现 , 属于 同一 品牌 车 辆 的 车 标 , 其 边缘 方向 直方 图 有 较 强 的 相似 性 ， 
不 同 品牌 车 标的 边缘 方向 直方 图 有 较 大 的 差异 性 。 因 此 可 选取 边缘 方向 直方 图 作为 车 标 
分 类 的 特征 。 

提取 待 识别 车 标 区 域 图 像 的 边缘 方向 直方 图 h(DK(4=1,2…,)， 再 将 h(i) 分别 与 各 类 
别 标准 模板 的 边缘 方向 直方 图 H(i 进行 相似 性 比较 ， 采 用 欧 氏 距离 衡量 相似 性 : 


1=T-1 
E= > 有 


若 有 态 越 小 ， 则 目标 与 该 类 别 模板 就 越 相 似 。 

基于 边缘 方向 直方 图 的 特征 匹配 法 较为 简单 ， 计 算 速 度 快 ， 能 较 好 反映 目标 图 像 的 
边缘 和 形状 特征 ， 各 类 车 标 特征 的 分 离 性 能 较 好 。 

2. 基于 SIFT 的 车 标 搜索 方法 

1999 年 David GLowe 提出 SIFT， 即 尺度 不 变 特征 变换 ， 在 总 结 不 变 特征 检测 方法 
的 基础 上 ， 提 出 基于 尺度 空间 的 特征 匹配 算法 ， 能 提取 稳定 特征 ， 具 有 平移 、 旋 转 、 仿 
射 变换 、 视 角 变 换 、 光 照 变换 的 不 变性 。 可 应 用 于 目标 识别 、 图 像 检索 、 目 标 跟 踪 等 领 
域 ， 准 确 度 较 高 。 


算法 6.4 基于 SIFT 的 车 标 搜索 方法 输入 : 车 标 灰 度 图 像 。 
过 程 : 1. 提取 一 定数 量 的 特征 点 ， 并 保存 其 对 应 的 特征 描述 子 ; 
. 按 行 优先 顺序 对 截取 的 特征 点 进行 排序 ; 
. 将 排序 后 的 关键 点 对 应 的 特征 值 连 在 一 起 ， 组 成 特征 向 量 ， 其 维 数 是 
N=nX128， 其 中 mm 为 SIFT 关键 点 的 个 数 ; 
4. 将 SIFT 特征 描述 子 作为 车 标 搜索 特征 ， 输 入 分 类 器 ， 实 现 搜 索 。 

输出 : 车 标 搜索 结果 。 

3. 基于 SURF 的 车 标 搜索 方法 

SURF (Speed Up Robust Feature) 是 一 种 提取 局 部 特征 的 算法 ， 在 尺度 空间 寻找 极 
值 点 ， 使 之 具有 尺度 、 旋 转 不 变性 ， 并 对 视角 变化 、 仿 射 变换 和 噪声 保持 一 定 程度 的 稳 
定性 ， 独 特性 好 ， 信 息 量 丰富 ， 比 SIFT 计算 量 小 、 速 度 快 。 

SURF 实现 过 程 主要 包括 关键 点 提取 和 特征 描述 两 部 分 。 首 先 基 于 尺度 空间 理论 ， 


WD 
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Bay 等 人 利用 Hessian 矩阵 提取 关键 点 ， 然 后 采用 方 框 滤波 (box filters ) 近似 代替 二 阶 
高 斯 滤波 ， 并 用 积分 图 像 加 速 卷 积 ， 提 高 计算 速度 ; 接着 检测 尺度 空间 的 极 值 点 ， 精 确 
定位 极 值 点 ;最 后 为 这 些 关 键 点 指定 方向 。 

SUREF 关键 点 描述 如 图 6.23 所 示 。 


De 
Tal_ 
24 
pd 
图 6.23 SURF 关键 点 描述 
以 特征 点 为 中 心 ， 首 先 将 坐标 轴 旋 转 到 主 方向 ;然后 按照 主 方向 选取 边 长 为 20s (s 


为 当前 尺度 量 ) 的 正方 形 区 域 ， 将 该 窗口 区 域 划分 成 4x4 的 子 区 域 ， 在 每 一 个 子 区 域内 
计算 5sx5s (采样 步 长 为 s) 范围 内 的 Haar 小 波 响应 。 

将 每 个 子 区 域 的 Haar 小 波 响 应 和 其 绝对 值 相 加 得 到 >drx、>dy、Yldx|、ldy|。 因 此 
对 每 个 特征 点 ， 形 成 4x4x4 = 64 维 的 描述 向 量 ， 并 进行 向 量 的 归 一 化 ， 从 而 对 光照 具 
有 一 定 的 鲁 棒 性 。 

如 图 6.24 所 示 ， 针 对 待 识别 车 标 图 像 ， 首 先 提 取 其 SURF 特征 点 ， 然 后 进行 特征 描 
述 ， 最 后 和 模板 库 中 的 特征 点 进行 匹配 。 


提取 SURF 点 
并 进行 描述 寻找 特征 匹配 对 数 


寻找 匹配 最 多 的 类 型 去 除 明显 匹配 错误 对 


图 6.24 基于 SURF 的 车 标 搜索 
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暴力 行为 检测 系统 


在 美国 “9*11” 恐 怖 袭击 之 后 ， 反 仙 、 维 稳 成 为 世界 各 国 非 军事 化 行动 的 重要 方向 。 
视频 监控 系统 作为 主要 的 安全 防范 手段 ， 广 泛 应 用 于 银行 、 交 通 、 监 狱 、 居 民 小 区 等 公 
共 安 全 场所 。 随 着 高 清 视频 监控 的 迅速 发 展 ， 面 向 海量 视频 的 实时 监视 、 分 析 和 报警 是 
一 个 大 难题 ， 人 工 监视 和 分 析 无 法 满足 高 安全 应 用 要 求 ， 智 能 监控 需求 非常 强烈 。 暴 力 
行为 危害 性 大 ， 是 视频 监控 系统 的 监视 重点 。 采 用 视觉 计算 、 机 器 学 习 、 人 工 智能 等 自 
动 检 测 暴 力行 为 ， 有 助 于 及 时 发 现 治安 和 丽 怖 隐患 ， 避 免 事态 升级 。 


7.1 暴力 行为 


暴力 行为 是 指 个 人 或 团体 为 达到 自身 目的 ， 借 助 于 身体 、 机 械 、 武 器 等 ， 发 出 的 一 
种 区 别 于 正常 行为 的 激烈 而 具有 强制 性 力量 的 行为 ， 以 及 对 抗 这 些 行为 所 产生 的 抵抗 行 
为 。 暴 力行 为 可 能 威胁 公民 的 人 身 和 财产 安全 (如 斗殴 、 抢 动 、 追 逐 等 治安 事件 ) ， 甚 
至 威胁 社会 公共 安全 《〈 如 打 、 砸 、 抢 等 骚乱 事件 ) ， 因 此 ， 及 时 发 现 和 制止 暴力 行为 ， 
避免 暴力 行为 的 升级 ， 对 社会 和 谐 稳定 意义 重大 。 

如 图 7.1 所 示 ， 常 见 的 暴力 行为 有 斗殴 、 打 砸 、 抢 动 和 追逐 等 ， 与 行走 、 拥 抱 、 停 
留 等 正常 行为 相 比 ， 暴 力行 为 一 般 具 有 突 发 性 大 、 动 作 较为 剧烈 、 不 可 预知 等 特点 ， 具 
体 见 表 7.1。 
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图 7.1 暴力 行为 示例 
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表 7.1 常见 暴力 行为 的 特点 
行为 寺 点 
斗殴 人 体 上 肢体 剧烈 运动 ， 或 不 同 个 体 肢 体 之 间 相 互 交 互 ; 常 伴 有 人 尖 叫 声 、 求 救 声 
打 而 人 体 肢体 剧烈 运动 ， 多 人 聚集 或 分 散 ; 不 同人 体 相互 运动 剧烈 ， 遮 挡 严重 ; 常 
伴 有 喧哗 声 、 物 品 破碎 声 
追逐 追逐 者 与 被 追逐 目标 的 运动 轨迹 基本 一 致 ， 运 动 速度 较 快 ， 存 在 运动 加 速度 
抢劫 前 期 表现 为 追逐 行为 ， 后 期 表现 为 斗殴 行为 ， 常 伴 有 尖 叫 声 、 求 救 声 等 


7.2 暴力 行为 检测 


暴力 行为 检测 采用 视觉 机 器 学 习 方法 ， 在 计算 机 和 柑 入 式 CPU 平台 上 ， 分 析 监 控 
场景 的 视频 数据 , 提取 暴力 行为 的 显著 性 和 稳健 性 特征 , 判别 场景 中 是 否 存 在 暴力 活动 。 
暴力 行为 检测 涉及 计算 机 视觉 、 图 像 处 理 、 模 式 识 别 和 人 工 智能 等 多 个 学 科 ， 是 人 
体 行为 分 析 领 域 的 重要 研究 方向 , 在 公共 安全 监控 方面 具有 广阔 的 应 用 前 景 和 重大 的 社 


7.2.1 系统 框架 


如 图 7.2 所 示 ， 暴 力行 为 检测 系统 包括 用 户 交互 模块 、 视 频 采 集 模块 、 暴 力行 为 检测 
模块 、 视 频 编码 与 网 络 传输 模块 、 数 据 存储 与 显示 模块 等 ， 其 核心 是 暴力 行为 检测 模块 。 


( 视频 采集 模块 


用 户 交互 模块 于 


[一 一 一 一 
| NN | 数据 存储 与 显 / | 
一 一 一 一 一 一 示 模 块 


图 7.2 暴力 行为 检测 系统 框架 
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1. 用 户 交互 模块 


用 户 交互 模块 的 主要 任务 是 响应 用 户 的 操作 指令 , 对 系统 的 功能 和 性 能 进行 合理 配 
置 。 用 户 交互 模块 又 可 细 分 为 用 户 登 录 模 块 和 用 户 定制 模块 。 

口 用 户 登录 模块 : 用 于 验证 系统 管理 员 信 息 ， 以 启动 或 者 关闭 系统 ， 同 时 激活 用 
户 定制 模块 。 
用 户 定制 模块 : 根据 用 户 需求 ， 定 制 系统 检测 的 功能 和 性 能 。 
定制 视频 采集 的 性 能 参数 ， 如 对 比 度 、 亮 度 、 云 台 转 动 位 置 等 ; 
定制 检测 模块 的 性 能 参数 ， 如 运动 检测 灵敏 度 、 判 决 阔 值 等 ; 
定制 视频 编码 与 网 络 传输 的 性 能 参数 ， 如 帧 率 、 码 率 、 分 辩 率 等 ; 
定制 数据 存储 与 显示 功能 ， 如 是 否 存储 视频 和 报警 记录 、 是 否 显示 报警 记录 、 
是 否 进行 短信 报警 等 。 

2. 视频 采集 模块 

视频 采集 模块 用 于 采集 监控 场景 的 视频 。 对 于 暴力 行为 检测 系统 而 言 ， 不 仅 视频 质 
量 对 暴力 行为 检测 性 能 有 较 大 影响 ,而 且 摄像 机 的 安装 高 度 和 角度 也 会 影响 暴力 行为 检 
测 的 性 能 。 因 此 ， 根 据 场景 的 实际 情况 ， 需 要 合理 地 调整 摄像 机 的 高 度 和 角度 。 根 据 应 
用 需求 的 不 同 ， 可 选择 摄像 机 是 否 携带 云 台 ， 以 及 选择 模拟 摄像 机 、 数 字 摄 像 机 或 者 高 
清 摄像 机 。 

3. 暴力 行为 检测 模块 


暴力 行为 检测 模块 采用 视频 分 析 与 理解 技术 ， 检 测 监视 视频 中 是 否 存在 暴力 行为 。 
该 模块 是 暴力 行为 检测 系统 的 核心 ， 可 细 分 为 5 个 模块 。 

(1) 目标 检测 模块 

目标 检测 模块 首先 通过 时 间 差 分 法 、 背 景 减 除法 、 光 流 法 等 提取 前 景 运动 目标 ， 然 
后 采用 合理 的 表示 方法 标记 和 描述 目标 属性 。 其 中 ， 前 景 运动 目标 的 提取 是 该 模块 的 核 
心 ， 算 法 7.1~7.3 描述 了 几 种 常用 的 前 景 目标 提取 算法 。 


日 已 癌 口 癌 


算法 7.1 时 间 差 分 法 
输入 : 具有 一 定时 间 间 隔 的 前 一 帧 图 像 IMG1 和 当前 帧 图 像 IMG2。 
过 程 : 1. 计算 两 帧 图 像 的 差 值 图 像 IMG3: 

Ep) = f(xy) f(xy) 
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其 中 , (cy) 为 图 像 中 的 像素 点 , 用 万、 万 分 别 表示 图 像 IMG1、 IMG2、IMG3 
的 颜色 属性 ， 常 用 亮度 属性 。 
2. 对 差 值 图 像 IMG3 进行 图 像 分 割 ， 得 到 前 景 与 背景 分 离 的 二 值 图 像 ; 
常用 自 适 应 阔 值 分 割 方法 ， 如 OTSU 方法 。 

输出 ;前景 与 背景 分 离 的 二 值 图 像 。 


算法 7.2 ”背景 减 除 法 
输入 : 背景 图 像 IMG1 和 当前 帧 图 像 IMG2。 
过 程 : 1. 计算 两 帧 图 像 的 差 值 图 像 IMG3: 


Ep) = f(x,y)- f(x,y) 


其 中 , (xy) 为 图 像 中 的 像素 点 , fi、p、 有 分别 表示 图 像 IMG1、 IMG2、IMG3 
的 颜色 属性 ， 常 用 亮度 属性 。 
2. 对 差 值 图 像 IMG3 进行 图 像 分 割 ， 得 到 前 景 与 背景 分 离 的 二 值 图 像 ; 
常用 自 适应 阔 值 分 割 方法 ， 如 OTSU 方法 。 
3. 更 新 背景 图 像 ， 常 用 高 斯 背景 模型 。 

输出 ;前景 与 背景 分 离 的 二 值 图 像 。 


算法 7.3 ” 光 流 法 
输入 : 具有 一 定时 间 间 隔 的 前 一 帧 图 像 IMG1 和 当前 帧 图 像 IMG2 。 
过 程 : 1. 计算 各 像素 点 的 时 间 偏 导 廊 
T(x,y)= f(x,y)— f(x,y) 
其 中 ，(x,y) 为 图 像 中 的 像素 点 ，fi、 甩 分 别 表示 图 像 IMG1、IMG2 的 颜色 
属性 ， 常 用 亮度 属性 。 
2. 计算 各 像素 点 的 空间 梯度 到: 


Typ) = D+D (x,y) 


其 中 ， 
RAG A 
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L(x,y)= 5p) -f(x,y-l) 
3. 计算 各 像素 点 的 光 流 值 V， 构 建 光 流 场 : 


也 
人 
4. 对 光 流 场 进行 分 割 ， 得 到 前 景 与 背景 分 离 的 二 值 图 像 ， 常 用 自 适 应 阐 
值 分 割 方法 ， 如 OTSU 方法 。 
输出 : 前 景 与 背景 分 离 的 二 值 图 像 。 

时 间 差 分 法 对 运动 物体 敏感 ， 对 于 简单 背景 下 的 运动 目标 检测 较为 有 效 ， 对 光线 的 
变化 具有 较 强 的 鲁 棒 性 ， 且 算法 实现 简单 ， 时 间 和 空间 复杂 度 比 较 低 ， 检 测速 度 快 ， 易 
于 实时 实现 ， 在 运动 目标 检测 中 应 用 广泛 。 但 该 方法 提取 的 目标 轮廓 不 完整 ， 容 易 出 现 

“孔洞 ”现象 ， 检 测 精度 较 低 ， 同 时 检测 结果 受 目标 运动 速度 的 影响 很 大 。 

背景 减 除法 检测 角度 较 高 ， 能 够 得 到 运动 目标 的 完整 轮廓 ， 是 目前 静止 摄像 机 视觉 
系统 中 广泛 使 用 的 方法 。 但 该 方法 对 光线 和 场景 的 变化 非常 敏感 。 

光 流 法 不 需要 预先 知道 场景 的 任何 信息 ， 能 够 检测 独立 运动 目标 ， 即 使 在 摄像 机 运 
动 的 情况 下 也 能 很 好 地 检测 出 运动 目标 。 但 该 方法 对 光线 变化 较为 敏感 ， 而 且 计 算 复 杂 
耗 时 。 

(2) 目标 跟踪 模块 

目标 跟踪 模块 通过 Mean Shift 等 方法 对 相 邻 视频 帧 的 运动 目标 进行 匹配 ， 获 取 目 标 
的 运动 轨迹 、 运动 速度 等 属性 。Mean Shift 的 基本 含义 是 均值 偏 移 和 撩 量 , 设 x%,x,,…,x%, 是 
落 在 以 d 维 欧 氏 空间 到 点 x 为 中 心 的 单位 超 立方 体 中 8 的 点 集 , 则 点 x 的 均值 偏 移 矢量 
的 基本 形式 定义 为 : 


1 
M0 —x) 

从 定义 可 以 看 出 ,Mean Shift 矢量 Mi(x) 就 是 对 落 入 5 区 域 中 的 个 样本 点 相对 于 点 
x 的 偏 移 和 撩 量 的 均值 。 若 样本 点 x 是 从 一 个 概率 密度 函数 x) 中 采样 得 到 的 ， 由 于 非 零 
概率 密度 的 梯度 指向 概率 密度 增加 最 大 的 方向 , 即 8 区 域内 的 样本 点 更 多 地 落 在 沿 着 概 
率 密度 梯度 方向 ， 因 此 ， 对 应 的 Mean Shift 矢量 应 该 指向 概率 密度 梯度 的 方向 。 

从 表达 形式 可 知 ， 落 入 5 区 域 中 的 n 个 样本 点 对 均值 偏 移 矢 量 Mi(x) 的 贡献 是 没有 
差别 的 。 为 了 将 距离 对 M(x) 的 影响 考虑 进来 ， 在 基本 Mean Shift 算法 的 基础 上 引入 核 
函数 概念 , 一 般 用 K(x) 表 示 , 在 Mean Shift 算法 中 , 常用 核 函 数 有 Epanechnikov 核 函 数 、 
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Epanechnikov 核 函 数 为 : 
clo Hai 
0, otherwise 
高 斯 核 函 数 为 : 


Ky)=e-epc2hh) 


其 中 c 为 q 维 单位 球体 的 体积 。 

经 过 改进 的 Mean Shift 算法 实际 上 是 一 种 基于 核 密度 估计 的 无 参数 模式 匹配 算法 ， 
是 一 种 计算 局 部 最 优 解 的 实用 方法 。 它 通过 迭代 来 搜索 目标 ， 实 现 对 运动 目标 的 定位 ， 
然后 在 视频 序列 上 ， 获 取 目 标的 运动 轨迹 、 运 动 速度 等 属性 。 常 用 的 Parzen E 核 密度 估 


P=LY K(x) 
ni 


VP(x)= LYvkG = 
n 


i=1 


其 中 


| 


对 p(x) 取 梯度 ， 可 得 : 


令 g(x)= 一 K'(x)， 可 得 : 


VP(x)= , Yvk, 六 < -下 je 挟 


i 
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mmCD= 加 9 


m(x) 表 示 当 前 窗口 中 所 覆盖 的 模式 点 的 加 权 中 心 , h 表示 搜索 窗口 的 尺寸 , x 表示 当 
前 搜索 窗口 的 中 心 位 置 ， 则 M(x) =m(x) 一 x 表示 Mean Shift 矢量 。 


Mean Shift 算法 的 实现 流程 如 下 。 


C07 选择 搜索 窗口 .包括 窗口 的 初始 位 置 、 窗 口 的 类 型 (均匀 、 多 项 式 、 指 数 
或 高 斯 类 型 ) 、 窗 口 的 形状 (对称 的 或 牌 余 的， 旋转 的 、 圆 形 的 或 矩形 的 ) 以 及 窗口 的 
大 小 (超出 窗口 的 部 分 被 截 去 ) 等 。 

2702 计算 带 权重 的 窗口 重心 处 位 置 (xy). 

CT03 将 窗口 的 中 心 设置 在 步骤 2 所 得 重心 位 置 处 。 

CW04 返回 步骤 2， 直 至 窗口 不 再 变化 . 


图 7.3 展示 的 是 一 个 Mean Shift 算法 应 用 于 二 维 数据 局 部 寻 优 的 例子 。 初 始 窗口 设 
置 为 最 左 侧 的 圆 形 实 线 窗口 ， 其 形 心 位 于 圆心 的 靶 心 标志 处 ， 窗 口内 覆盖 的 所 有 模式 点 
的 加 权重 心 位 于 形 心 右 下 角 的 灰色 靶 心 标志 处 , 于 是 将 搜索 窗口 更 新 至 以 该 灰色 靶 心 标 
志 为 中 心 处 。 然 后 以 类 似 方式 不 断 更 新 搜索 窗口 ， 直 至 窗口 不 青 移动 为 止 。 图 7.3 中 的 
箭头 表示 迭代 过 程 中 产生 的 Mean Shift 矢量 , 可 以 看 出 Mean Shift 矢量 的 长 度 在 寻 优 过 
程 中 不 断 减 小 ， 并 最 终 收敛 至 极 小 值 。 


图 7.3 Mean Shift 算法 局 部 寻 优 图 
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(3) 目标 分 类 模块 
目标 分 类 模块 根据 运动 目标 的 属性 特征 ， 判 断 运 动 目 标 是 否 为 人 体 运动 目标 ， 常 用 
方向 梯度 直方 图 (Histogram of Oriented Gradient, HOG) 特征 判别 人 体 目标 。 所 谓 HOG 
特征 ， 是 对 图 像 矩 形 窗口 中 各 个 方向 梯度 强度 的 一 种 统计 信息 。Dalal 等 人 提出 的 原始 
HOG 特征 定义 检测 窗口 (Detection Window) 尺寸 为 64X128, 块 (block) 尺寸 为 16 
X16， 每 个 块 包含 2X2=4 个 均匀 分 布 的 8X8 单元 格 (cell)。 
梯度 的 计算 方法 为 : 
GHy)=fx+L,y) -f(x-l,y) 
Ce 


值 。 该 像素 点 的 梯度 大 小 定义 为 : 


Ge yp) = YG + Or CD) 


G, (x, 3] 


$x,y) = tan ( 页 本 厅 


将 梯度 方向 空间 均匀 划分 为 对 称 的 9 个 方向 区 间 〈bin)， 则 每 个 块 累积 每 个 方向 区 
间 的 像素 梯度 值 ， 输 出 一 个 4X9=36 维 的 子 直 方 图 。 以 8 为 步 长 计算 重 倒 块 的 方向 梯 
度 直方 图 ， 对 于 尺寸 为 64X 128 的 检测 窗口 ， 除 去 四 周边 缘 的 16 个 像素 点 ， 则 获得 7 
X15 二 105 个 36 维 的 子 直方 图 ， 最 终 组 成 一 个 105X36 王 3780 维 的 方向 梯度 直方 图 。 

直接 按 定 义 计算 HOG 特征 的 复杂 度 比较 高 ， 在 实际 应 用 中 ， 可 以 采用 积分 图 的 形 
式 计 算 HOG 特征 ， 以 大 幅度 降低 计算 量 。 求 取 过 程 如 图 7.4 所 示 。 


图 7.4 积分 方式 计算 HOG 特征 示意 图 
定义 点 (xy) 的 积分 值 为 : 
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(x,y)= 》 I(x,y) 
则 图 7.4 中 位 置 1 处 的 积分 值 为 A， 位 置 2 处 的 积分 值 就 是 A+B， 位置 3 处 积分 值 
为 AfC，4 处 的 积分 值 为 A+B+C+D， 因 此 可 以 得 出 矩形 区 域 D 的 值 为 D=4+1-2-3。 
图 7.5 描述 了 HOG 特征 提取 算法 的 实现 流程 ， 其 步骤 如 下 。 
输入 图 像 


检测 
”窗口 


称 稚 作 合 马 至 


间 与 颜色 空间 


vy 


计算 梯度 


到 音 
元 格 的 梯度 方向 


黎 所 有 单元 各 在 
块 上 进行 归 一 化 


政 条 往 济 至 同 所 
Bi |] 有 块 的 HG 特征 


图 7.5 HOG 特征 提取 流程 


B201 为 减少 光照 等 因素 的 影响 ,将 整个 图 像 进行 规范 化 。 由 于 在 图 像 的 纹理 强 
度 中 ， 局 部 的 表层 曝光 的 影响 比重 较 大 ， 因 此 这 种 压缩 处 理 能 够 有 效 地 降低 图 像 局 部 阴 
影 和 光照 变化 的 影响 。 

ER02 计算 图 像 的 一 阶梯 度 。 求 导 操作 不 仅 能 够 捕获 轮廓 (contour) 、 剪 影 

(silhouette) 和 纹理 (texture) 等 信息 ， 还 能 进一步 弱化 光照 的 影响 。 

《ED3 为 局 部 图 像 区 域 提供 一 个 编码 , 同时 能 够 保持 对 图 像 中 人 体 对 象 的 姿势 和 
外 观 的 弱 敏 感性 。 首先 将 图 像 窗口 分 成 若干 个 小 区 域 ( 称 为 单元 格 ) ， 然 后 将 每 个 单元 
格 中 所 有 像素 的 一 维 梯度 直方 图 或 者 边缘 方向 进行 累加 ; 最 后 将 这 个 基本 的 方向 直方 
映射 到 固定 的 角度 上 ， 形 成 方向 梯度 特征 。 
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G0$ 对 比 度 归 一 化 。 归 一 化 能 够 进一步 对 光照 、 阴 影 和 边缘 进行 压缩 。 通 常 ， 


每 个 单元 格 由 几 个 不 同 的 块 共享 ,但 它 的 归 一 化 是 基于 不 同 块 的 ， 所 以 计算 结果 也 不 一 
样 。 故 一 个 单元 格 的 特征 最 终 会 以 不 同 的 结果 多 次 出 现在 特征 向 量 中 。 我 们 将 归 一 化 块 
描述 符 称 为 HOG 描述 符 。 

705 对 检测 窗口 中 所 有 重 又 的 块 (overlap of blocks) 进行 HOG 特征 的 收集 ， 


并 将 它们 结合 成 最 终 的 特征 向 量 ， 供 分 类 使 用 。 


对 于 提取 到 的 HOG 特征 ， 常 采用 AdaBoost 算法 进行 训练 和 分 类 ， 实 现 流程 如 图 


7.6 所 示 ， 具 体 步 又 如 下 。 


训练 样本 集 测试 样本 
vy vy 
特征 提取 特征 提取 
vy vy 
训练 分 类 测试 
蒿 标本 
分 类 器 分 类 结果 
图 7.6 分 类 器 的 训练 与 测试 
ZI01) 从 INRIA 或 MIT 等 数据 库 中 选取 包含 人 体 的 图 像 作为 正 样本 ， 不 包含 人 


寸 相 


体 的 图 像 作 为 负 样 本 ， 构 成 测试 样本 集 ， 部 分 样本 图 像 如 图 7.7 所 示 ， 正 负 样 本 图 像 尺 
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C302 提取 训练 样本 集中 每 一 幅 样本 图 像 的 HOG 特征 . 

E303 利用 Intel 计算 机 视觉 开源 库 OpenCV 中 的 Adaboost 分 类 器 ， 对 步骤 2 所 
得 数据 进行 训练 ， 获 得 分 类 器 。 

人 63 利用 步骤 3 所 得 的 分 类 器 判别 运动 目标 是 否 为 人 体 目标 。 


(4) 行为 理解 模块 

行为 理解 模块 依据 场景 中 运动 人 体 目标 自身 和 相互 之 间 的 物理 特征 和 运动 特征 等 ， 
辨别 是 否 存在 暴力 行为 。 其 中 ， 物 理 特 征 包括 不 同人 体 目标 的 相对 位 置 、 人 体 目标 各 个 
部 位 的 相对 位 置 、 人 体 目标 各 个 部 位 的 颜色 特征 等 。 运动 特征 包括 人 体 目标 各 个 部 位 的 
运动 速度 、 加 速度 和 方向 等 ， 具 体 的 特征 提取 与 分 类 方法 将 在 后 续 的 暴力 行为 检测 系统 
介绍 中 详 述 。 

(5) 异常 情况 处 理 模块 

当 系 统 检测 到 暴力 行为 时 ， 异 常情 况 处 理 模块 决策 如 何 处 理 暴 力行 为 ， 璧 如 进行 声 
光 报 警 或 者 短信 报警 等 。 

4. 视频 编码 与 网 络 传输 模块 

视频 编码 与 网 络 传输 模块 采用 H.264、AVS 等 视频 编码 标准 将 监控 视频 进行 压缩 ， 
然后 融合 报警 信息 等 数据 传输 给 远程 服务 器 。 数 据 的 传输 可 以 通过 有 线 网 络 和 无 线 网 络 
进行 ， 通 过 TCP/IP 协议 用 Socket 进行 传输 。 

5. 数据 存储 与 显示 模块 

数据 存储 与 显示 模块 主要 用 于 存储 和 显示 监控 场景 的 视频 数据 以 及 警 情 信息 , 其 中 
涉及 数据 库 操作 、 视 频 解码 等 处 理 。 

图 7.8 所 示 为 一 个 典型 的 暴力 行为 检测 系统 ， 该 系统 包括 终端 和 服务 器 两 大 部 分 。 
终端 主要 包括 暴力 视频 检测 模块 和 视频 编码 与 网 络 传输 模块 ， 暴 力行 为 检测 模块 采用 
TI DSP 实现 ， 视 频 编 码 与 网 络 传输 模块 采用 DM355 实现 。 监 视 视频 信号 通过 视频 分 配 
器 分 配给 DSP 和 DM355，DSP 采用 暴力 行为 检测 算法 检测 监视 场景 中 是 否 存在 暴力 行 
为 ， 如 果 没 有 ， 则 继续 监视 ， 如 果 有 暴力 行为 ， 则 通过 UART 串口 将 报警 信号 传递 给 
DM355。DM355 接 入 网 线 ， 首 先 实现 监视 视频 数据 的 编码 传输 ， 当 接收 到 DSP 的 报警 
信号 后 ， 则 通过 网 络 协议 将 报警 信号 传递 给 服务 器 ， 同 时 进行 本 地 录像 。 多 个 终端 通过 
网 络 与 服务 器 进行 通信 ， 服 务 器 可 以 实时 接收 各 个 终端 的 网 络 视频 数据 ， 实 现实 时 监视 
的 功能 ; 同时 ， 可 以 主动 接收 各 个 终端 的 报警 信息 ， 并 连接 数据 库 ， 自 动 调 出 终端 的 位 
置信 息 、 负 责 人 信息 以 及 其 他 有 用 信息 ， 然 后 通过 短信 平台 联系 负责 人 ， 及 时 处 理 终端 
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所 在 位 置 的 暴力 行为 。 事 后 ， 服 务 器 还 可 以 通过 网 络 查询 终端 的 录像 数据 ， 并 给 终端 传 
递 复位 信号 或 参数 信息 。 


图 7.8 “暴力 行为 检测 系统 组 成 图 
7.2.2 行为 数据 库 


视频 数据 库 是 测试 和 评价 暴力 行为 检测 系统 性 能 的 重要 依据 。 国际 上 流行 的 行为 识 
别 数据 库 如 表 7.2 所 示 。 
表 7.2 行为 识别 数据 库 


数据 库 名 称 创建 时 间 
KTH 2004 
Weizmann 2005 
IXMAS 2006 
Hollywood 2008 
UCF Sports 2009 
Hollywood2 2009 
UCF YouTube 2009 
MSR 2009 
Olympic 2010 
UCF50 2010 
HMDB51 2011 
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专门 用 于 暴力 行为 检测 的 数据 库 较 少 , 暴力 行为 检测 系统 的 视频 数据 库 一 般 是 从 这 
些 数据 库 中 抽取 的 。Bermejo 建立 了 一 个 专门 用 于 评估 打架 检测 的 视频 数据 集 
HockyFights, 主要 选取 曲棍球 比赛 场景 的 运动 员 打 架 行 为 和 正常 行为 ， 由 于 摄像 机 运动 
和 焦距 变化 ， 给 行为 检测 算法 的 测试 带 来 很 大 挑战 。 在 实际 应 用 需求 中 ， 暴 力行 为 特性 
和 公共 数据 库 中 的 暴力 行为 特性 经 常 存在 较 大 差异 ， 因 此 ， 目 前 也 有 许多 研究 是 基于 自 
建 的 测试 数据 库 进 行 测试 和 评价 的 。 


7.2.3 评价 指标 


准确 度 、 鲁 棒 性 、 速 度 是 暴力 行为 识别 系统 的 3 个 基本 要 求 。 准 确 度 要 求 系统 的 虚 
警 和 漏 警 现 象 少 ， 鲁 棒 性 要 求 系统 受 噪声 、 光 照 、 天 和 气 等 因素 的 影响 小 ， 速 度 要 求 系统 
能 满足 实时 监控 的 需求 。 如 何 选择 有 效 的 工作 方案 来 提高 系统 性 能 、 降 低 计算 代价 是 异 
常 行为 识别 系统 值得 考虑 的 问题 。 同 时 ， 如 何 利 用 来 自 不 同 用 户 、 不 同 环境 、 不 同 实验 
条 件 的 大 量 数据 测试 系统 的 实时 性 、 鲁 棒 性 亦 相当 重要 。 

暴力 行为 识别 系统 的 定量 评价 指标 主要 有 3 个 ， 即 虚 警 率 、 漏 警 率 和 处 理 速度 ， 对 
它们 的 详细 介绍 如 下 。 

1. 虚 警 率 


虚 警 率 (FAR) 是 指 在 一 定时 间 内 ， 正 常 行为 被 误 检 为 暴力 行为 的 次 数 CN ) 与 检 
测 总 次 数 CN) 的 比值 。 


FAR= Mx100% 
N 


虚 警 率 越 小 ， 系 统 性 能 越 好 ， 反 之， 系统 性 能 越 差 。 

2. 漏 警 率 

漏 警 率 (FRR) 是 指 在 一 定时 间 内 ， 异 常 行为 被 误 检 为 正常 行为 的 次 数 (N,) 与 检 
测 总 次 数 的 比值 。 


FRR= 2 x100% 
N 
漏 警 率 越 小 ， 系 统 性 能 越 好 ， 反 之， 系统 性 能 越 差 。 
3. 处 理 速度 
处 理 速度 (FPS) 是 单位 时 间 内 〈 如 1s) 系统 可 以 处 理 的 视频 帧 数 (NF)。 
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FPS=N; 


处 理 速度 越 快 ， 系 统 性 能 越 好 ; 反之 ， 系 统 性 能 越 差 。 

暴力 行为 一 般 与 行为 发 生 场景 和 上 下 文 有 关 ， 因 此 暴力 行为 识别 系统 的 评价 也 与 场 
景 有 关 。 实 时 监控 系统 对 于 系统 的 处 理 速度 要 求 较 高 ， 要 求 暴 力行 为 识别 系统 能 够 实时 
检测 视频 ， 人 工 监视 和 智能 监视 相 结合 的 系统 对 于 漏 警 率 指标 要 求 高 ， 要 求 尽 可 能 减少 
漏 警 ， 这 样 尽管 虚 警 率 有 所 增加 ， 可 以 通过 人 工 监视 的 方式 剔除 虚 警 ， 另 外 ， 由 于 暴力 
行为 破坏 性 大 , 需要 及 时 有 效 预警 , 因此 暴力 行为 检测 系统 一 般 要 求 尽 可 能 地 没有 漏 警 ; 
自动 监视 系统 对 于 虚 警 率 指标 要 求 较 高 , 一 般 要 求 尽 可 能 没有 虚 警 , 这 样 可 以 减少 人 力 、 
物力 的 浪费 。 


7.3 ”基于 对 象 层次 的 暴力 行为 检测 系统 


Ankur Datta 等 人 针对 电影 分 级 中 的 暴力 行为 检测 问题 ,设计 了 一 种 基于 对 象 层次 的 
暴力 行为 检测 系统 。 如 图 7.9 所 示 ， 该 系统 首先 求 取 某 一 对 象 的 运动 轨迹 ， 计 算 具 有 运 
动 方向 和 大 小 的 加 速度 度量 参数 (Acceleration Measure Vector, AMV) 和 冲撞 系数 (jerk) 
等 行为 特征 ， 然 后 结合 周围 对 象 的 肢体 运动 特性 ， 综 合 判决 是 否 存在 暴力 行为 。 


部 ? 
是 
行为 特征 提取 
最 否 


图 7.9 基于 对 象 层次 的 暴力 行为 检测 系统 实现 流程 
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1. 运动 目标 检测 

暴力 行为 是 由 运动 目标 引起 的 ， 因 此 ， 首 先 需要 检测 场景 中 是 否 存 在 运动 目标 ， 只 
对 存在 运动 目标 的 场景 进行 暴力 行为 检测 。 

常用 背景 减 除法 检测 运动 目标 ， 采 用 单 高 斯 模型 自 适 应 更 新 背景 ， 以 适应 场景 中 的 
光照 变化 和 周期 运动 ， 实 现 伪 代 码 如 下 。 


算法 7.4 单 高 斯 模型 背景 减 除法 
输入 : mn 帧 背景 图 像 和 当前 帧 图 像 。 
过 程 :1. 初始 化 背景 模型 ; 


ia 

= 

z, = 了 之 本 =-A)( — 1) ] 
{=1 


其 中 ， 必 为 背景 中 任 一 点 ;的 颜色 值 的 期 望 ，2 为 颜色 值 的 分 布 的 协 方差 矩阵 ， 
为 点 i 在 第 t 帧 图 像 中 的 颜色 值 ， 所 有 背景 点 的 (4,5,) 构成 初始 的 背景 模型 。 
2. 目标 检测 : 设 当前 帧 图 像 上 任 一 点 i 的 颜色 值 为 X， 若 | -4|<D:o(D<<3)， 
则 认为 该 点 为 背景 点 , 否则 为 目标 点 。 式 中 D 由 噪声 的 峰 度 决定 , 一 般 取 经 验 值 2.5~3。 
3. 模型 更 新 : 
Hn =(1 -ou +axX, 
Bn =0-o)z, +a(X, -HNX, 一 AN 
其 中 ， 更 新 率 a(0<a<1) 是 表示 更 新 快慢 的 常数 。 
输出 ， 前 景 与 背景 分 离 的 二 值 图 像 。 
2. 人 体 目标 判定 
对 于 检测 到 的 运动 目标 ， 可 能 是 人 体 ， 也 可 能 是 动物 或 者 车 辆 等 ， 而 只 有 人 体 目标 
才能 引起 暴力 行为 ， 因 此 需要 对 目标 属性 进行 判定 。 采 用 轮廓 特征 判定 目标 属性 ， 实 现 
伪 代 码 如 下 。 


算法 7.5 人 体 目标 判断 方法 


输入 :目标 轮廓 。 
过 程 : 1. 将 运动 目标 的 轮廓 水 平 划 分 为 3 个 相等 的 部 分 从 上 到 下 依次 记 为 H1、 


190 视觉 大 数据 基础 与 应 用 


H2 和 H3。 
2. 对 于 每 一 个 部 分 ， 计 算 轮廓 图 像 的 垂直 投影 直方 图 。 
3. 分 别提 取 3 个 投影 直方 图 目标 数量 的 均值 、 目 标 数量 的 标准 差 以 及 轮 
廓 边界 矩形 的 长 宽 比 等 轮廓 特征 。 
4. 依据 正常 人 体 目 标 所 训练 的 轮廓 特征 ， 采 用 固定 阐 值 法 判断 当前 轮廓 
是 否 为 人 体 目标 的 轮廓 。 
输出 :目标 是 否 为 人 体 。 
3. 人 体 颈 肩 部 位 定位 
图 7.10 所 示 为 Hl 的 垂直 投影 直方 图 ， 依 据 人 体 颈 部 的 先 验 信息 ， 颈 部 的 y 轴 坐标 


入 ;应 为 直方 图 的 谷 点 ， 也 即 投影 的 导数 的 极 大 值 。 依 据 颈 部 的 位 置 ， 可 以 推算 肩 部 的 位 
置 Sy: 
$=N, 二 全 ) 


其 中 ,7 表示 头 部 的 半径 ，4(pneaqg) 表 示 头 部 的 面积 。 


x 
图 7.10 HI 的 垂直 投影 直方 图 
4. 头 部 跟踪 


头 部 跟踪 的 目的 是 获取 人 体 目 标的 运动 轨迹 ， 为 后 续 行 为 特征 的 提取 服务 。 头 部 跟 
踪 的 步骤 如 下 : 
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E3307 依据 上 一 步 定 位 的 颈 部 位 置 , 采用 区 域 生长 方法 向 上 搜索 , 得 到 头 部 区 域 。 

G3702 以 头 部 区 域 的 外 接 和 矩形 框 作 为 头 部 的 初始 跟踪 框 。 

人 3 采用 颜色 差分 平方 和 (Color Sum of Squared Differences，CSSD) 作为 度 
量 准 则 ,在 前 一 帧 头 部 位 置 的 附近 邻 域 匹配 当前 帧 中 头 部 的 位 置 ， 从 而 得 到 头 部 的 运动 

5. 行为 特征 提取 

依据 人 体 头 部 的 运动 轨迹 ， 提 取 具 有 运动 方向 和 大 小 的 AMV 和 jerk 等 行为 特征 。 
jerk 实际 上 是 速度 的 二 阶 导 数 ， 可 以 反映 暴力 行为 中 目标 运动 轨迹 的 剧烈 变化 ， 其 公式 
为 : 


A(W) =dV /dt 
J(1) =d4/dt 


其 中 ， 天 是 速度 ，4(0) 是 加 速度 ，.XO 即 为 jerk，1 为 时 间 。 
设 MT = 仍 , 马 …, 忆 } 表示 第 i 个 人 的 运动 轨迹 ， 其 中 ，B =(x,y) 是 第 i 个 头 部 跟踪 
框 的 质心 。AMYV 可 以 定义 为 : 
6(0,d)=a -Wy(BB, BitB BB Bn)j 
其 中 ，% 、B 是 分 别 分 配给 加 速度 方向 和 大 小 的 权重 ，d 为 像素 间 的 距离 。 
y(B ,BBn)=1-cos0 


ed Ce 


Ralaa, 


B587)=|aal- 


pal 

OW» ,09,» 
= 

Jer ( a a a 


6. 暴力 行为 判定 

如 果 第 i 帧 的 某 个 人 在 某 方向 上 移动 时 突然 改变 运动 方向 和 大 小 ， 那 么 这 个 人 是 遭 
受 打击 或 撞击 的 候选 人 ， 这 一 现象 可 以 采用 固定 阔 值 法 用 AMV 和 jerk 来 判断 。 如 果 该 
候选 人 附近 有 其 他 人 ， 且 其 他 人 的 四 肢 向 候选 人 伸 出 ， 说 明 有 人 体 目 标 正在 实施 暴力 行 
为 ， 判 定 该 帧 发 生 暴力 行为 。 而 四 肢 的 方向 可 以 采用 下 面 的 方法 计算 : 


192 视觉 大 数据 基础 与 应 用 


口 从 人 体 的 头 部 向 肩 部 移动 ， 穿 过 轮 廊 边 界 即 可 得 到 上 和 臂 的 方向 。 
口 搜索 H2 部 位 轮 廊 横 截面 的 外 部 边界 ， 得 到 腿 的 方向 。 


当 手 或 者 腿 的 方向 接近 与 地 面 平行 或 与 地 面 成 负 角 度 时 , 判断 该 人 的 四 肢 向 他 人 伸 出 。 
为 了 减少 虚 警 ， 一 般 采 用 时 间 滤 波 方法 ， 当 连续 多 帧 图 像 都 检测 到 暴力 行为 时 ， 才 
触发 警 情 。 


7.4 基于 光 流 变化 的 暴力 行为 检测 系统 


Kentaro Hayashi 等 人 针对 电梯 中 的 暴力 行为 实时 检测 问题 ， 设 计 了 一 种 基于 光 流 变 
化 的 暴力 行为 检测 系统 。 该 系统 基于 光 流 变化 提取 暴力 行为 程度 (Violent Action Degree， 
VAD) 特征 ， 作 为 暴力 行为 判决 的 依据 。 该 系统 实现 简单 ， 可 以 应 用 于 实时 性 要 求 较 高 
的 电梯 安全 监控 场所 。 

1. 光 流 变化 与 暴力 行为 的 关系 


光 流 〈Optical Flow) 是 空间 运动 物体 在 观测 成 像 面 上 的 像素 运动 的 瞬时 速度 ,代表 
了 局 部 运动 的 方向 和 模 值 。 一 般 地 ， 相 对 于 普通 行为 ， 暴 力行 为 发 生 时 光 流 变化 更 大 。 
图 7.11 为 玻璃 墙 电梯 中 的 两 由 图像， 左边 一 幅 图 像 为 非 暴 力 场景 , 右边 一 幅 图 像 为 暴力 
场景 。 图 7.12 显示 了 图 7.11 所 示 场 景 对 应 的 光 流 直方 图 ， 其 中 光 流 的 计算 使 用 典型 的 
块 匹 配 (Sum of Absolute Difference，SAD) 方 法 ， 光 流 直方 图 划分 为 8 个 方向 和 4 个 数量 
级 。 从 图 7.12 中 不 难 发 现 , 暴力 行为 发 生 时 的 光 流 变 化 比 正常 行为 时 的 光 流 变化 要 大 得 
多 。 图 7.13 显示 了 光 流 变化 的 标准 偏差 ， 其 中 ， 纵 坐标 代表 了 光 流 方向 的 标准 偏差 ， 横 
坐标 代表 了 模 值 的 标准 偏差 。 可 见 ， 暴 力行 为 发 生 时 ， 光 流 方 向 和 模 值 的 偏差 都 大 于 正 
常 行为 。 尽 管 不 同类 型 的 电梯 的 尺寸 、 光 照 、 摄 像 机 安装 位 置 和 角度 不 同 ， 但 暴力 场景 
和 非 暴力 场景 在 光 流 变化 方面 的 属性 基本 不 变 。 因此 , 可 利用 光 流 的 变化 检测 暴力 行为 。 


了 


\m 


(a) 非 暴 力 场 景 (b) 暴力 场景 
图 7.11 电梯 内 的 监控 图 像 
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Frequency 


Be 4 
a 1 eonitude 2 1 Magnitude 
Direction 大 人 “78 
(a) 非 暴力 场景 (b) 暴力 场景 


图 7.12 光 流 直方 图 


标准 偏差 方向 


i 0 
0.5S11.522.533.5 00511.522.533.5 
标准 偏差 模 值 标准 偏差 模 值 


(a) 非 暴力 场景 (b) 暴力 场景 
图 7.13” 光 流 变 化 标准 偏差 
2. 暴力 行为 检测 
暴力 行为 的 检测 包括 两 个 阶段 ， 第 一 阶段 是 学 习 阶 段 ， 通 过 输入 图 像 建立 光 流 变化 


的 模型 ， 第 二 阶段 是 检测 阶段 ， 通 过 当前 的 光 流 变化 和 光 流 变化 模型 检测 场景 中 是 否 存 
在 暴力 行为 。 具 体 实现 方法 描述 如 下 。 
算法 7.6 学习 光 流 变化 模型 
输入 : 非 暴 力 场景 视频 序列 。 
过 程 : 1. 采用 块 匹配 法 ， 计 算 每 帧 图 像 上 所 有 点 的 光 流 方向 和 模 值 ; 
2. 采用 固定 阔 值 法 ， 剔 除 模 值 太 小 的 光 流 ; 
3. 计算 每 帧 图 像 中 的 3 个 光 流 变化 特征 : 光 流 方向 标准 偏差 D、 光 流 模 值 
标准 偏差 M 和 光 流 参数 的 数量 Q; _ 
4. 计算 所 有 图 像 中 各 光 流 变化 特征 的 均值 和 标准 差 : Dp、M、Q、op、 
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cy 和 co ， 此 即 为 光 流 模型 的 内 容 。 
输出 : 光 流 模型 。 


算法 7.7 暴力 行为 检测 

输入 : 当前 场景 视频 流 。 

过 程 : 1. 采用 块 匹配 法 ， 计 算 当 前 帧 图 像 上 所 有 点 的 光 流 方向 和 模 值 ; 
2. 采用 固定 阔 值 法 ， 剔 除 模 值 太 小 的 光 流 ; 


3. 计算 当前 帧 图 像 中 的 3 个 光 流 变化 特征 : 光 流 方向 标准 偏差 D、 光 流 模 


值 标准 偏差 M 和 光 流 参数 的 数量 Q; 
4. 通过 下 列 光 流 模 型 计算 VAD: 
_D-D 
2 


h 


MM 


Py = 


VAD=P,xPy xP, 


5. 当 VAD 超过 设 定 的 判决 阅 值 时 ， 判 定 当前 帧 为 暴力 帧 
6. 当 一 定时 间 内 多 帧 图 像 为 暴力 帧 时 ， 判 定 当前 场景 发 生 暴力 行为 ， 
警 情 信 号 。 


输出 警 情 信 号。 


7.5 ”基于 运动 着 色 的 暴力 行为 检测 系统 


触发 


在 复杂 监控 场景 中 ， 人 体 目 标的 完整 轮廓 不 易 提取 ， 且 不 同人 体 之 间 会 发 生 遮 挡 现 
象 ， 此 时 暴力 行为 的 检测 非常 困难 。 为 了 解决 复杂 环境 下 的 暴力 行为 检测 问题 ， 


Alessandro Mecocci 等 人 设计 了 一 种 基于 时 空 着 色 的 暴力 行为 检测 系统 。 


当 发 生 暴力 行为 时 ， 由 于 场景 中 人 与 人 之 间 相 互 影 响 ， 会 导致 人 体 一 些 部 位 出 现 高 
速 运动 和 局 部 素 乱 现象 。 此 外 ， 因 为 人 与 人 的 距离 更 加 接近 ， 人 体 部 位 的 局 部 变化 趋向 


于 隐蔽 和 不 隐蔽 的 情况 会 经 常 发 生 ， 从 而 导致 这 些 部 位 表面 的 颜色 变化 剧烈 。 因 


比 ， 可 
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以 通过 分 析 每 个 场景 中 运动 部 位 的 时 间 和 空间 的 行为 着 色 问 题 , 来 解决 暴力 行为 的 识别 
问题 。 这 里 所 说 的 运动 区 域 ， 并 不 需要 指向 所 涉及 目标 的 真实 部 位 或 者 轮廓 ， 因 此 该 系 
统 容易 处 理 人 体 遮挡 问题 。 

该 系统 的 实现 流程 如 图 7.14 所 示 ， 详 细 描 述 如 下 。 


图 7.14 ”基于 运动 着 色 的 暴力 行为 检测 系统 实现 流程 

1. 运动 区 域 检测 

如 7.3 节 所 述 ， 暴 力行 为 是 由 运动 目标 引起 的 ， 因 此 ， 首 先 需 要 检测 场景 中 是 否 存 
在 运动 目标 ， 只 对 存在 运动 目标 的 场景 进行 暴力 行为 检测 。 采 用 背景 减 除法 检测 运动 目 
标 ， 背 景 更 新 采用 单 高 斯 模型 。 对 于 检测 到 的 所 有 运动 目标 ， 将 各 目标 连通 域 的 最 大 外 
接 和 矩形 区 域 记 为 运动 区 域 RoJ ， 得 到 多 个 互 不 重合 的 运动 区 域 。 

2. 运动 区 域 跟踪 

Rol 跟踪 策略 是 : 假设 1 时 刻 图 像 帧 为 F，14 是 由 背景 估计 模块 提供 的 二 值 匹配 分 
割 图像。 是 用 F 掩 膜 , 得 到 的 图 像 。 假设 N, 是 在 中 色素 点 的 编号 (一 个 色素 点 可 以 
是 一 个 人 或 一 群 人 的 一 部 分 ) ， 这 些 色素 点 通过 已 ”CC=12…,N) 确定 ， 用 其 质心 


Gi = (Ci,,C!,) 进 行 表征 。 色 素 点 集 被 分 成 子 集 Se， 如果 38-|d4(B,B)<9^B-eSt， 那 
么 BieSi, 其 中 da(,) 表示 Hausdorf 距 离 ，6 为 国人 和 值 。5; 中 所 有 色素 点 所 在 的 外 接 和 矩形 区 
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域 记 为 RoT R;， 每 个 Ror 的 质心 由 组 成 它 的 色素 点 质心 来 定义 ， 跟 踪 器 是 一 个 离散 函数 
G0 : 生 …,NR} 已 卫 …,NR, 1} ， 通 过 利用 下 一 场景 中 的 Ror 去 匹配 当前 场景 中 每 个 Ro7 而 
得 到 。 
3. 运动 区 域 着 色 

为 获取 场景 中 暴力 行为 引起 的 变化 特征 , 引入 色彩 架构 的 概念 , 色彩 架构 是 由 m 个 
- 进 制图 像 je (k=1,2,.…m) 组 成 ， 它 和 Rol Ri 相 联 系 的 ， 可 以 通过 颜色 聚 类 算法 对 
Rol Ri 进行 色素 点 分 割 而 得 到 。 考 虑 到 计算 效率 ， 一般 选 用 CIE Lab 颜色 空间 进行 颜色 
采样 和 聚 类 。 颜 色 标记 从 1 开始 ， 按 步 长 为 1 逐 级 扫描 CIE Lab 颜色 空间 。 为 构造 二 进 
制图 像 .x ， 通 过 为 五 的 每 个 像素 分 配 与 它 相 对 应 颜色 分 类 标记 ， 去 创建 一 幅 新 图 像 
Rh* 。 而 后 ， 每 个 图 像 . 通过 下 列 公式 得 到 : 


1 E(x,y)=k 


J = 及 
0 if FF (x,y)zk 


其 中 ，(w,y) 表 示 像 素 坐 标 , k 是 从 1 到 m 的 整数 。 显 然 ， 每 个 x 包含 了 那些 1 时 
刻 颜 色 为 上 的 Rol 的 像素 。 每 个 图 像 J;' 由 确定 的 色素 点 编号 nx 组成。 在 Ro7 Ri 中 ， 
当 它 们 的 质心 可 以 用 Ci 表示 时 ， 这 些 色素 点 描述 颜色 的 色彩 并 通过 
Rip'(s =1,.…niy') 表 示 。 图 7.15 显示 部 分 运动 的 着 色 图 像 。 


图 7.15 CIE Lab 颜色 空间 的 运动 着 色 图 像 


4. 行为 特征 提取 

为 了 分 析 着 色 运 动 , 首先 估计 从 五! 帧 到 五 帧 中 每 个 Ror 的 全 局 运动 , 在 忆 { 和 ye 
之 间 建立 匹配 。 每 个 Ror 运动 区 域 在 时 刻 + 的 着 色 运动 可 以 通过 匹配 1 时 刻 .4 和 1 时 
刻 .Upx 中 的 色素 点 进行 估计 , 然后 通过 函数 w(p.0): 由 天 四 xiao 一 101 
进行 着 色 跟踪 ， 其 定义 如 下 : 
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1 Rik,p 与 Rpg 匹配 


,q) = 
yp,g | ， 其 他 


为 了 描述 着 色 形 态 的 时 空 复杂 度 ， 引 入 了 一 个 称 为 总 体 相对 转换 能 量 ( TWEix ) 的 
综合 性 指标 ， 对 1 时 刻 属于 Rol Ri 的 类 颜色 进行 着 色 统计 。 
首先 定义 上 时 刻 大 类 颜色 的 变色 能 量 : 


和 站、 Ss 1 一 1 一 2 
we (p,9 =e -20-Cooso -con ') 


类 颜色 变色 能 量 总 计 定 义 如 下 : 
mk Le 

TWEx = >) wp,q) WE;r (p,q) 
P=l 9g=l 


因为 共有 m 类 不 同 的 颜色 ， 因 此 将 有 m 个 TWE 使 用 最 大 值 操作 进行 融合 : 


MWE; = max {TWE, .'} 
ke[l,m] 


5. 暴力 行为 判定 

如 果 1 时 刻 Rol Ri 的 MWE; 超过 预先 确定 的 阔 值 ， 则 认为 区 域 Ro7 Ri 发 生 暴 力行 为 ， 
并 认定 该 时 刻 的 图 像 帧 为 暴力 帧 。 当 一 定时 间 内 存在 多 帧 图 像 为 暴力 帧 时 ， 则 判定 当前 
场景 发 生 暴力 行为 ， 触 发 警 情 信号 。 


第 8 章 
可 疑 行为 检测 系统 


与 暴力 行为 相 比 ， 可 疑 行 为 不 直接 威胁 公共 安全 ， 但 是 其 潜在 危害 很 大 ， 甚 至 比 暴 
力行 为 更 大 。 对 视频 监视 而 言 ， 可 疑 行为 的 发 生 概率 远 远 大 于 暴力 行为 ， 是 社会 治安 、 
反恐 和 维稳 的 重点 。 


8.1 可疑 行为 


可 疑 行 为 是 指 可 能 侵害 公民 的 人 身 和 财产 安全 ， 甚 至 引发 重大 公共 安全 事件 的 行 
为 ， 可 疑 行 为 多 种 多 样 ， 与 场景 上 下 文 和 应 用 环境 息息相关 ， 辟 如 可 能 破坏 社会 安定 的 
街头 群体 聚集 行为 、 可 能 危害 他 人 安全 的 尾随 行为 等 。 

按照 参与 人 员 数 目的 不 同 ， 可 疑 行为 可 分 为 基于 单 人 行为 的 徘徊 、 奔 跑 、 躺 身 、 铜 
外 、 跳 跃 、 下 蹲 、 倒 地 、 越 界 、 攀 爬 、 遗 留 物品 等 ， 基 于 两 人 行为 的 尾随 等 ， 基 于 多 人 
行为 的 聚集 等 。 

与 暴力 行为 不 同 ， 可 疑 行为 的 激烈 程度 小 ， 危 险 性 不 明确 ， 要 根据 特定 场合 和 上 下 
文 进行 推断 。 图 8.1 列举 了 几 种 关注 度 较 高 的 可 疑 行为 ， 其 特点 如 表 8.1 所 示 。 
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图 8.1 常见 可 疑 行为 示例 


表 8.1 常见 可 疑 行为 特点 
行为 特点 
徘徊 人 体 运 动 轨迹 在 空间 上 有 较 大 重复 ， 在 时 间 上 有 明显 周期 性 
奔跑 人 体 移动 速度 很 快 
躬 身 人 体 运动 时 呈 弯 腰 姿 态 
钼 甸 人 体 运 动 时 呈 卧 地 前 行 姿 态 
跳跃 人 体 在 矢 直 方向 运动 ， 移 动 速度 快 ， 且 运动 过 程 中 身体 做 伸缩 运动 
下 蹲 人 体 从 直立 姿态 变 为 蹲 着 姿态 
倒 地 人 体 从 直立 姿态 变 为 横 躺 姿态 
越界 人 体 运 动 轨迹 进入 某 虚 拟 周 界 ， 且 运动 方向 朝向 虚拟 周 界 
遗留 人 体 和 随身 携带 物品 在 同 向 运动 过 程 中 ， 物 品 和 人 体 突然 分 离 ， 物 品 停 
止 运动 ， 人 体 继续 运动 
攀 卜 人 体 在 垂直 方向 向 上 运动 ， 四 肢 呈 伸展 姿态 且 呈 周期 性 运动 
尾随 两 人 运动 轨迹 基本 一 致 ， 且 相对 距离 变化 不 大 
聚集 场景 中 人 体 目 标的 运动 从 有 序 变 为 混乱 ， 且 某 区 域 人 口 密度 增加 ， 人 与 


人 之 间 的 距离 减 小 
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8.2 可疑 行为 检测 


可 疑 行为 检测 包括 用 户 交互 模块 、 视 频 采 集 模块 、 可 疑 行 为 检测 模块 、 视 频 编 码 与 
网 络 传输 模块 、 数 据 存储 与 显示 模块 等 ， 其 核心 是 可 疑 行为 检测 模块 。 这 些 模块 在 第 7 
章 有 过 详细 介绍 ， 主 要 区 别 为 可 疑 行 为 理解 模块 。 

与 暴力 行为 不 同 ， 可 疑 行为 没有 剧烈 运动 的 典型 性 特征 ， 且 可 疑 行为 种 类 繁多 ， 不 
同 的 可 疑 行为 可 能 具有 截然 不 同 的 行为 特征 ,譬如 多 人 的 群体 聚集 行为 和 单 人 的 倒 地 行 
为 差异 很 大 ， 单 人 的 徘徊 行为 和 单 人 的 倒 地 行为 也 有 明显 差异 。 因 此 ， 可 疑 行为 的 理解 
没有 通用 方法 ， 需 要 针对 一 种 或 者 几 种 类 似 的 可 疑 行为 展开 算法 研究 。 

如 何 选择 充分 的 特征 有 效 表征 可 疑 行为 是 行为 理解 的 关键 , 特征 选择 要 考虑 的 问题 
主要 有 两 个 : 一 是 目标 显著 与 稳健 特征 的 选择 ， 二 是 目标 特征 的 精确 测量 。 待 选择 的 目 
标 特征 应 具备 如 下 特点 。 


口 可 靠 性 : 同类 目标 的 特征 值 相似 。 
口 可 区 分 性 : 不 同类 目标 的 特征 值 具 有 明显 差异 ， 目 标 与 背景 的 特征 值 也 具有 明 
显 差异 。 

口 独立 性 : 同一 目标 中 ， 各 特征 相互 独立 ， 互 不 相关 。 

口 精简 性 : 原始 特征 通过 映射 或 变换 方法 进行 降 维 。 

描述 可 疑 行 为 的 特征 主要 是 运动 特征 和 形状 特征 ， 壁 如 采用 运动 特征 中 的 轨迹 可 以 
很 好 地 描述 徘徊 和 尾随 行为 ， 采用 运动 特征 中 的 速度 可 以 很 好 地 描述 跳跃 和 奔跑 行为 ; 
采用 运动 特征 中 的 运动 方向 可 以 较 好 地 描述 越界 和 倒 地 行为 ; 采用 形状 特征 可 以 较 好 地 
区 分 人 体 和 非 人 体 ， 从 而 描述 聚集 、 遗 留 物品 等 可 疑 行为 ; 采用 形状 特征 中 的 姿态 特征 
可 以 较 好 地 描述 铜币 、 躬 身 等 可 疑 行 为 。 

在 实际 应 用 中 ， 需 要 首先 深入 分 析 可 疑 行为 的 一 些 先 验 知识 ， 然 后 选择 具有 典型 性 
和 稳健 性 的 行为 特征 。 

可 疑 行为 检测 系统 的 评价 指标 与 暴力 行为 检测 系统 相同 ， 详 见 第 7 章 的 内 容 。 可疑 
行为 数据 库 一 般 从 第 7 章 中 表 7.2 所 述 的 行为 数据 库 中 抽取 ， 这 里 不 再 著述 。 


8.3 ”基于 轨迹 特征 的 可 疑 行为 检测 系统 
人 体 运动 的 轨迹 特征 常 被 用 于 检测 可 疑 行为 ， 张 瑞 玉 、 张 锦 等 人 利用 人 体 运动 轨迹 


特征 检测 徘徊 行为 , 胡 卫 明 等 人 利用 轨迹 特征 检测 停车 场 中 是 否 有 可 疑 人 员 等 。 事实 上 ， 
轨迹 特征 还 可 以 用 于 检测 多 种 可 疑 行为 , 谢 剑 斌 等 人 提出 一 种 基于 轨迹 特征 的 可 疑 行为 
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检测 系统 ， 利 用 轨迹 特征 检测 徘徊 、 奔 跑 、 镜 旬 、 倾 倒 、 躬 身 等 可 疑 行 为 。 
8.3.1 系统 结构 


基于 轨迹 特征 的 可 疑 行为 检测 流程 如 图 8.2 所 示 ， 该 系统 主要 包括 人 体 目标 检测 、 
轨迹 建 模 、 特 征 提取 与 分 类 3 个 模块 。 


视频 图 像 末 集 
入 二 二 册 闫 人 利 办 所 i 击 XtH 人 休 日 本 1 
人体 目标 检测 |__| 基于 本 关 分 和 本 对 的 人 体 有 标 | 
1 1 


【基于 时 间 窗 四 元 组 的 轨迹 建 模 方法 | 
一 -1 基于 空域 约束 和 时 频 域 特征 联合 匹配 | 
| 的 人 体 目标 特征 匹配 方法 | 


--】 提取 方法 
1 基于 SVM 的 轨迹 特征 分 类 方法 


图 82 基于 轨迹 特征 的 可 疑 行为 检测 流程 
8.3.2 人 体 目 标 检测 


在 监视 场景 中 , 重要 的 目标 是 运动 的 人 体 目标 , 首先 采用 三 帧 差分 法 检测 运动 目标 ， 
然后 采用 轮廓 配对 法 筛选 人 体 目 标 。 其 中 ， 三 帧 差分 法 的 伪 代 码 如 下 。 
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算法 8.1 三 帧 差分 法 

输入 : 三 帧 图 像 石 、 己 、 有 

过 程 : 1. 计 算 帧 差 图 像 El、E: 
E dh-ll 
E,4L,-L,| 


2. 计 算 帧 差 图 像 均 值 ， 乘 以 加 权 系 数 ， 作 为 自 适 应 阔 值 7: 


1 万 一 
A ,+E,(i, ))] 


m= 


T=PBxm 


其 中 ，WxHH 为 视频 图 像 尺 寸 ，B 为 加 权 系 数 ，B 取 10。 
3. 阀 值 分 割 ， 得 到 二 值 图 像 MR。 

1 ,E()>T 且 OE(i,))>T 
0 ,otherwise 


wat -| 


MR 中 数值 为 1 的 像素 点 记 为 运动 目标 点 。 
输出 :前景 与 背景 分 离 的 二 值 图 像 。 


二 值 图 像 MR 中 的 目标 难免 出 现 断 裂 和 “孔洞 ”现象 ， 同 时 存在 噪声 。 为 此 ， 首 先 
采用 中 值 滤波 方法 平滑 目标 块 ， 去 除 噪声 ;然后 采用 数学 形态 学 的 开 运算 操作 填补 目标 
块 的 “孔洞 ”， 合 并 相 邻 的 目标 块 ， 最 后 采用 8- 邻 接连 通 方法 搜索 和 标记 目标 。 

由 于 运动 目标 并 不 一 定 都 是 人 体 ， 因 此 需要 对 目标 的 属性 进行 判断 ， 尽 可 能 多 地 吻 
除 动 物 、 车 辆 等 干扰 目标 ， 降 低 虚 警 率 。 采 用 轮廓 配对 方法 剔除 干扰 目标 ， 伪 代码 见 算 
法 8.2。 


算法 8.2 ”轮廓 配对 方法 

输入 : 运动 目标 块 。 

过 程 : 1. 检 测 目标 块 的 轮廓， 轮廓 点 (x,y) 满 足 两 个 条 件 : 
条 件 1: MR(x,y)=1。 

条 件 2: MR(x,y+1)+ MR(x,y-1)=1, 

或 MR(x+l,y+1)+MR(x -1,y-1)=1, 
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或 MR(x+l,y-D)+ MR(x-l1,y+1)=1, 

或 MR(x+1,y)+ MR(x -1,y)=1。 

2. 采用 归 一 化 傅立叶 描述 子 表示 目标 轮廓 。 

对 坐标 为 (x, y) 的 第 n 个 轮廓 点 ， 记 XTn]=x，Yln]=y， 计 算 傅 立 叶 描述 子 : 


a(W) = F(x (D+jY(R)e "tu=0,,...,K-l 
其 中 , 为 轮廓 点 总 数 。 由 于 傅立叶 描述 子 与 形状 尺度 、 方向 和 曲线 起 始点 有 关 ， 
故 需 进行 归 一 化 : 


(1) 


d(u) = ,=12,.., KR-l 
a 


3. 采用 欧式 距离 进行 轮廓 配对 ， 判 断 目标 属性 。 假 设 待 识别 目标 的 傅立叶 描述 
子 为 do0)， 人 体 目标 的 傅立叶 描述 子 为 gz(w)， 则 二 者 的 形状 差异 为 : 


IK-l 
a= She -a 


设 定 固定 阔 值 D， 这 里 取 D=0.02。 如 果 4<D， 则 认为 该 日 标 为 人 体 目 标 ， 耕 则 
认为 该 目标 为 干扰 目标 。 

输出 : 运动 目标 块 是 否 为 人 体 目标 的 结论 。 
8.3.3 轨迹 建 模 

人 体 的 轨迹 信息 是 判断 人 体 可 疑 行 为 的 重要 依据 之 一 ,如何 建立 稳定 可 靠 的 人 体 轨 
迹 模型 是 判别 人 体 可 疑 行为 的 基础 。 

1. 轨迹 四 元 组 
采用 基于 时 间 窗 四 元 组 的 轨迹 建 模 方法 ， 轨 迹 的 四 元 组 记 为 : 

TR={i,f,P(x,y),d(u)} 


其 中 ,i 表示 目标 序号 , f 表 示 视 频 帧 号 ，P(x,y) 表 示 目 标 质心 坐标 ，d(w) 表 示 目 标 轮 
廓 描述 子 。 

对 于 每 一 帧 二 值 图 像 MR 中 筛选 的 某 人 体 目标 , 依次 记录 视频 帧 号 、 目 标 质心 坐标 、 
目标 轮廓 描述 子 信息 。 其 中 ， 轮 廓 描述 子 信息 在 8.3.2 节 已 经 求 得 ， 目 标 质心 坐标 为 : 
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¥=[> YMRG WY > MR )] 


wR SS mR) 
2. 目标 序号 的 标记 方法 
对 于 第 一 巾 视 频 图 像 ， 依 次 标记 各 个 人 体 目 标的 序号 。 对 于 后 续 视频 图 像 中 出 现 的 
各 个 人 体 目 标 ， 和 前 一 帧 中 的 各 个 人 体 目标 进行 特征 匹配 ， 如 果 匹 配 成 功 ， 则 该 目标 
号 标记 为 前 一 帧 相 匹配 的 目标 序号 ， 香 则 ， 该 目标 标记 为 新 的 序号 。 
3. 人 体 目标 特征 匹配 


采用 基于 空域 约束 和 时 频 域 特征 联合 匹配 方法 实现 人 体 目 标 特征 匹配 ,具体 步骤 如 
Fs 


人 EX6i) 空域 约束 

一 般 地 ， 即 使 是 人 体 快速 奔跑 的 速度 也 不 可 能 达到 视频 实时 采样 速度 ， 相 邻 两 帧 视 
频 图 像 中 同一 人 体 目标 的 轮廓 是 有 重 共 的 ， 因此， 依据 空域 约束 区 分 明显 不 是 同一 个 人 
体 的 目标 。 假 设 重 受 点 为 (x, 访 ， 则 在 前 后 两 帧 二 值 图 像 中 ，(x, yy) 必须 满足 两 个 条 件 。 

条 件 1: MR(x,y)=1 

条 件 2: MR,(x,y)=1 


其 中 ，MR; 表示 当前 帧 目标 块 ，MRo 表 示 前 一 帧 目标 块 。 

如 果 前 后 两 帧 人 体 目标 有 重 琶 点 ， 则 认为 两 个 人 体 目标 有 可 能 是 同一 个 目标 ， 继 续 
下 一 步 匹 配 ， 否 则 ， 认 为 两 个 人 体 目标 不 匹配 ， 终 止 目标 匹配 过 程 。 

CT02 频 域 特征 匹配 

可 采用 傅立叶 描述 子 特征 进行 频 域 特征 匹配 ， 假 设 当前 帧 目标 的 傅立叶 描述 子 为 
di(w)， 前 一 帧 目标 的 傅立叶 描述 子 为 &(1)， 则 目标 之 间 的 频 域 特征 差异 为 : 


IK-1 
sso -a 
=1 


设 定 固定 阔 值 Dp,，D,<D, 这 里 取 Ds=0.013。 如 果 q<D,， 则 认为 前 后 两 帧 人 体 目标 
有 可 能 是 同一 个 目标 ， 继 续 下 一 步 匹配 ; 和 否则， 认为 两 个 人 体 目标 不 匹配 ， 终 止 目标 匹 
配 过 程 。 

人 ED3 时 域 特征 匹配 
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下 面 采用 梯度 向 量 特征 进行 时 域 特征 匹配 。 
按照 梯度 算 子 计 算 各 像素 点 梯度 : 
G(s, ND)=Ii+tL, -Til)) 


G(s) = +D)-1(i,j-D) 


梯度 模 值 为 : 
GN) =YG.( 7 +G,(i7) 
梯度 方向 为 : 
Aa(i,))=tan(G.(i, 7) /G,(i,))) 
把 [-m/2,m2] 的 梯度 方向 均匀 划分 为 9 个 区 间 《〈 记 为 weaul<k<9) ， 则 各 个 像素 点 在 


分 量 区 间 上 的 9 维 梯度 向 量 特征 为 : 
A ,Q(i,]) € area, 


0 ,otherwise 
目标 块 的 平均 梯度 向 量 特征 为 : 


1 ag 
> 及 (71<E<9 


= 一 一 一 
玉 x 古 向 他 


假设 当前 帧 目标 的 梯度 向 量 特征 为 瑟 ， 前 一 帧 目标 的 梯度 向 量 特征 为 肪 ， 则 目标 
之 间 的 时 域 特征 差异 为 : 


9 
v=1.0—exp(— Bo 一 太守 110000) 
大 =1 


设 定 固定 阔 值 D3, 这 里 取 Ds=0.14。 如 果 <D3， 则 认为 前 后 两 帧 人 体 目 标 是 同一 个 
目标 ;和 否则 ， 认 为 两 个 人 体 目标 不 匹配 。 
由 于 人 体 目标 的 轨迹 与 时 间 有 关 , 于 是 在 得 到 每 一 帧 视频 图 像 中 各 个 目标 的 四 元 组 
之 后 ， 采 用 时 间 窗 法 得 到 时 间 窗 四 元 组 ， 记 为 Wr: 
Wr = {7R, |to <k<h +t} 


其 中 ，w 表 示 起 始 视频 帧 号 ，t4 表 示 时 间 窗 宽度 ， 即 间隔 帧 数 。 
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8.3.4 轨迹 特征 提取 


在 获取 各 个 人 体 目标 的 时 间 窗 四 元 组 之 后 ， 可 提取 轨迹 特征 。 

将 时 间 窗 四 元 组 中 的 质心 坐标 相连 接 , 可 以 得 到 一 条 时 空 离散 曲线 , 如 图 8.3 所 示 。 
该 曲线 反映 人 体 目 标 在 时 间 窗 内 的 运动 轨迹 ， 是 辨别 可 疑 行为 的 重要 依据 。 采 用 基于 时 
室 离 散曲 线 提取 轨迹 的 标量 特征 和 矢量 特征 ， 实 现 步 骤 如 下 。 


图 8.3 时空 离散 曲线 


1. 轨迹 的 标量 特征 提取 
时 空 离散 曲线 标量 特征 包括 : 广义 曲率 、 时 空 长 度 和 时 空 拐点 数目 。 
口 广义 曲率 
首先 , 计算 时 空 离散 曲线 上 各 离散 点 与 相 邻 两 点 的 夹 角 , 作为 该 离散 点 的 角度 特征 ， 
以 已 点 为 例 ， 其 角度 特征 为 : 
0 =arccos[(BB + BR -BB)/(QNBBxBR) 
其 中 
PBR=(P.-B.)+(P,-P,) 
BRB=(B,.-P.) +(B, -BP,Y 
PB=(P.-B.)+(P, -PB,) 
然后 ， 取 所 有 离散 点 角度 特征 的 平均 值 ， 作 为 广义 曲率 。 这 里 以 图 8.3 的 时 空 离散 
曲线 为 例 ， 取 中 间 9 个 点 的 角度 均值 ， 得 到 的 广义 曲率 为 
R= 


口 时 空 长 度 
时 空 长 度 特 征 可 以 由 时 空 离散 曲线 上 的 离散 点 数目 代替 ， 即 为 时 空 离散 曲线 上 的 离 
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散 点 数目 。 对 于 图 8.3 所 示 的 时 空 离散 曲线 ， 其 时 空 长 度 特征 为 11。 

口 时 空 扬 点 数目 

在 时 空 离散 曲线 上 ， 当 离散 点 的 角度 特征 小 于 x/2 时 ， 认 为 该 点 为 时 空 拐点 。 在 时 
空 离散 曲线 上 ， 时 空 拐点 的 个 数 为 时 空 拐点 数目 。 在 图 8.3 所 示 的 时 空 离散 曲线 上 ,Ps、 
Ps 为 时 空 拐点 ， 时 空 拐点 数目 为 2。 


2. 轨迹 的 矢量 特征 提取 


对 于 时 空 离散 曲线 上 的 每 一 个 离散 点 ， 提 取 空 域 和 时 域 两 个 矢量 特征 。 

口 空域 矢量 

空域 矢量 描述 人 体 目标 在 行进 过 程 中 的 身体 倾向 , 用 来 区 分 人 体 是 直立 姿态 还 是 前 
倾 或 后 倾 等 倾倒 姿态 ， 甚 至 完全 倒 地 姿态 ， 有 助 于 辨别 人 体 奔跑 、 倾 倒 、 负 外 、 躬 身 等 
行为 。 

空域 矢量 的 获取 方法 是 : 首先 由 四 元 组 的 轮廓 描述 子 恢复 人 体 轮廓 形状 ;然后 采用 
椭圆 曲线 拟 合 方法 获取 人 体 椭圆 形状 ， 最 后 提取 椭圆 的 长 轴 矢 量 ， 作 为 空域 矢量 。 

口 时 域 矢量 

时 域 矢 量 描述 人 体 目标 在 行进 过 程 中 的 运动 情况 ， 对 于 时 空 离散 曲线 上 的 任 一 点 ， 
其 时 域 矢量 的 模 值 为 该 点 与 下 一 点 的 欧式 距离 ,时 域 和 撩 量 的 方向 为 该 点 指向 下 一 点 的 方 
向 和 水 平方 向 的 夹 角 。 

以 图 8.3 中 P 点 为 例 ， 其 时 域 撩 量 的 模 值 为 : 


r=y(B. -BY +(B, 一 已 让 


方向 为 : 
0= arctan[( 尼 。 —B,)/(B, —B,) 
8.3.5 ”轨迹 特征 分 类 
由 于 行为 特征 随机 性 强 ， 难 以 依据 模板 匹配 或 最 小 距离 等 方法 进行 分 类 。 可 采用 
SVM 方法 进行 行为 特征 分 类 .SVM 是 在 统计 学 习 理 论 基础 上 发 展 起 来 的 一 种 学 习 方 法 ， 
可 以 有 效 解 决 小 样本 、 模 型 选择 和 非 线性 问题 ， 具 有 很 强 的 泛 化 性 能 。 核 函数 是 SVM 
算法 的 关键 ， 选 择 径 向 基 函 数 作为 SVM 的 核 函数 : 


K(x,y)=exp -下 
5 书 
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在 训练 阶段 ， 首 先 选择 尽 可 能 多 的 正 负 样本 ， 正 样本 为 包含 徘徊 、 奔 跑 、 铜 币 、 倾 
倒 、 躺 身 等 行为 的 视频 ， 负 样本 为 包含 正常 行走 、 聚 集 、 聊 天 等 行为 的 视频 ， 然 后 采用 
轨迹 四 元 组 方法 建立 轨迹 模型 ， 采 用 基于 时 空 离散 曲线 提取 轨迹 的 标量 特征 和 矢量 特 
征 ; 最 后 采用 SVM 方法 进行 训练 ， 得 到 分 类 器 。 

在 识别 阶段 ， 首 先 对 实时 视频 中 的 各 个 人 体 目标 建立 轨迹 模型 ， 提 取 轨 迹 特征 ; 然 
后 将 轨迹 特征 输入 由 训练 阶段 得 到 的 分 类 器 进行 分 类 ; 最 后 判别 待 检测 视频 中 是 否 存在 
可 疑 行为 ， 如 果 存 在 可 疑 行 为 ， 则 启动 声 光 报警 。 


8.4 基于 运动 方向 的 可 疑 行为 检测 系统 
运动 方向 是 可 疑 行为 检测 的 重要 依据 之 一 , 胡 芝兰 等 人 提出 了 一 种 基于 运动 方向 的 
可 疑 行为 检测 系统 ， 利 用 人 体 的 运动 方向 特征 检测 聊天 、 病 倒 、 放 包 、 取 包 、 在 门 附近 
徘徊 以 及 进出 门 等 可 疑 行为 。 
8.4.1 系统 流程 


基于 运动 方向 的 可 疑 行为 检测 系统 流程 ,如 图 8.4 所 示 , 该 系统 包括 背景 边缘 模型 、 
前 景 帧 判断 、 行 为 特征 描述 和 SVM 分 类 器 等 模块 。 


图 8.4 基于 运动 方向 的 可 疑 行为 检测 系统 流程 
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8.4.2 ”背景 边缘 模型 


传统 前 景 检 测 方法 提取 干净 的 前 景区 域 , 本 系统 前 景 检 测 只 是 为 了 判断 当前 帧 是 否 
为 前 景 帧 。 由 于 边缘 对 光照 变化 的 鲁 棒 性 要 比 区 域 或 者 像素 强 很 多 ， 且 背景 的 边缘 位 置 
相对 固定 ， 因 此 考虑 构建 背景 边缘 模型 ， 通 过 区 分 前 景 边缘 和 背景 边缘 ,实现 复杂 光照 
环境 下 的 前 景 帧 检测 。 有 具体 实现 方法 是 : 在 某 段 时 间 内 ， 统 计 视 频 帧 各 像素 点 出 现 边缘 
的 概率 ， 构 建 背景 边缘 模型 。 记 Pb(iy,?) 为 像素 点 (iy) 在 当前 帧 1 为 背景 边缘 的 概率 : 


已 E(i,j,k 
a)= 


i=L,2,…,W,j=1,2,.…,H 
mr TT 


其 中 ，E(.,.,D 为 第 上 帧 所 对 应 的 边缘 图 像 ， 该 边缘 图 像 通过 Canny 算 子 检测 得 到 ; 
玉 和 五 分 别 为 每 帧 图 像 的 宽 和 高 ; 7 为 背景 边缘 模型 的 更 新 时 间 。 

对 于 前 景 目标 ， 即 使 相对 静止 的 行为 《如 站 立 )， 同 一 姿势 的 滞留 时 间 也 不 会 很 长 ， 
即 前 景 目标 的 轮廓 边缘 仍 处 于 小 幅度 运动 中 , 所 以 了 的 取 值 不 需 很 大 ， 以 便 及 时 适应 背 
景 边缘 的 更 新 。 根 据 实 验 分 析 ， 更 新 时 间 了 取 1500 帧 ， 即 为 60s (25fps)。 


8.4.3 前景 帧 判断 


采用 Canny 算 子 ,可 以 得 到 当前 帧 :的 边缘 图 像 ， 记 为 E(.,.f); 依据 背景 边缘 模型 ， 
判断 边缘 点 (iy) 是 否 为 前 景点 : 


Pa 二 (70=1 且 RAPD< 了 到 
0 其 他 
如 果 背 景 边 缘 概率 低 于 阔 值 TB， 则 该 边缘 点 为 前 景 边缘 点 ， 奉 则 为 背景 边缘 点 。 


阔 值 78 的 设置 对 检测 结果 有 较 大 影响 ， 阅 值 设置 太 小 时 前 景 边缘 点 易 漏 检 ， 阅 值 设置 
太 大 时 背景 边缘 点 会 由 于 噪声 干扰 或 相机 抖动 影响 而 误 检 。 实 验 中 取 7B=0.2。 

由 于 光照 以 及 灰尘 、 噪 声 等 影响 ， 在 前 景 边缘 图 中 会 存在 一 定 的 噪声 边缘 点 。 一 般 
地 ， 在 背景 帧 图 像 的 前 景 边 缘 图 中 ， 噪 声 边 缘 点 少 且 分 布 散 ， 而 在 前 景 帧 的 前 景 边 缘 图 
中 ， 边 缘 点 多 且 分 布 相对 集中 。 因 此 ， 可 以 根据 前 景 边缘 点 的 数量 和 分 布 情况 区 分 前 景 
帧 和 背景 帧 ， 方 法 是 : 首先， 依据 邻 域 信息 去 除 噪声 点 ， 具 体 地 ， 如 果 某 前 景 边缘 点 所 
在 8 邻 域内 的 边缘 点 少 于 3 个 ， 则 认为 该 8 邻 域内 全 部 为 噪声 点 ; 然后 ,统计 图 像 中 前 
景 边缘 点 数量 ， 记 为 N， 如 果 Nt! 三 30， 判 定 该 帧 为 前 景 帧 ， 否 则 ， 判 定 为 背景 帧 。 
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8.4.4 行为 特征 描述 


不 同 的 监视 视频 中 ， 行 为 发 生 的 位 置 和 速度 千变万化 ,行为 个 体 的 数量 和 尺寸 也 各 
不 相同 。 为 了 保证 行为 识别 性 能 ， 行 为 描述 特征 需要 具有 位 置 和 尺度 不 变性 ， 且 对 个 体 
数量 和 运动 速度 不 敏感 。 块 运动 方向 可 以 满足 上 述 要 求 ， 图 8.5 显示 了 不 同行 为 之 间 块 
运动 方向 的 差异 ， 其 中 ， 用 bin 表示 块 运动 方向 归 一 化 直方 图 ，X 轴 表 示 每 个 bin 的 中 
心 值 ，Y 轴 表 示 该 视频 段 属于 对 应 bin 的 运动 方向 的 比例 ; 若 将 打架 换 为 病 倒 ， 则 对 应 
直方 图 高 度 应 适当 降低 。 


0.6 


0.628 1.156 1.884 2.512 3.14 3.768 4.396 5.024 5.562 6.28 
Xx 


图 8.5 不 同行 为 的 运动 方向 归 一 化 直方 图 

可 见 聊天 、 病 倒 等 可 疑 行为 与 正常 行走 行为 存在 明显 差异 ， 因 此 块 运动 方向 归 一 化 
直方 图 可 以 描述 行为 特征 ， 相 关 伪 代码 见 算法 8.3。 

算法 8.3 “行为 特征 描述 

输入 : 视频 流 。 

过 程 ，1 视频 分 段 。 等 间隔 抽取 10 帧 图 像 ， 帧 与 帧 间隔 为 10。 该 视频 分 段 基本 
对 应 一 个 完整 的 动作 。 

2 提取 视频 分 段 中 的 所 有 前 景 帧 ， 如 果 该 视频 段 中 前 景 帧 的 比例 小 于 80%， 认 
为 该 视频 段 不 存在 前 景 帧 ， 块 运动 方向 归 一 化 直方 图 数值 全 为 零 ， 退 出 ;否则 进入 下 
一 步 。 

3. 对 于 每 一 前 景 帧 中 提取 运动 幅度 不 为 零 的 块 ， 计 算 块 运动 方向 。 对 于 VGA 视 
频 ， 块 大 小 取 为 gx8。 

4 对 该 视频 段 的 所 有 块 运动 方向 进行 归 一 化 直方 图 统计 ,得 到 该 视频 段 的 行为 描 
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述 特征 。 在 直方 图 统计 过 程 中 ， 采 用 13 个 直方 块 (bin)， 每 个 bin 的 中 心 值 在 [0,2z] 之 
间 均 匀 求 出 。 
输出 : 块 运动 方向 归 一 化 直方 图 。 


8.4.5 SVM 分 类 


对 于 提取 到 的 行为 描述 特征 ， 将 正常 行走 行为 的 特征 作为 正 样本 ， 将 聊天 、 病 倒 、 
放 包 、 取 包 、 在 门 附近 徘徊 以 及 进出 门 等 可 疑 行为 的 特征 作为 负 样 本 ， 采 用 SVM 分 类 
器 进行 训练 和 分 类 。 

SVM 分 类 器 在 前 文 已 经 介绍 ， 这 里 不 再 袭 述 。 

在 经 过 分 类 器 分 类 之 后 ， 如 果 是 可 疑 行为 ， 则 触发 警 情 信 号 。 


8.5 ”基于 形状 特征 的 可 疑 行 为 检测 系统 


对 于 跳跃 、 奔 跑 、 倒 地 、 下 蹲 、 挥 手 和 手 拿 异物 等 可 疑 行为 ， 在 行为 发 生 时 ， 人 体 
目标 的 形状 有 显著 变化 , 如 图 8.6 所 示 。 因此, 形状 特征 是 检测 可 疑 行为 的 重要 依据 之 一 。 


正常 行走 和 为 序列 
跳跃 行为 序列 奔跑 行为 序列 jr 
下 蹲 行为 序列 挥手 行为 序列 手持 异物 行为 序列 


图 8.6 行为 视频 序列 


pa ys 视觉 大 数据 基础 与 应 用 


印 勇 等 人 设计 了 一 种 基于 形状 特征 的 可 疑 行为 检测 系统 ， 用 于 检测 跳跃 、 奔 跑 、 倒 
地 、 下 足 、 挥 手 和 手 拿 异物 等 可 疑 行 为 。 该 系统 首先 采用 背景 差分 法 提取 运动 人 体 目标 ; 
然后 采用 Hu 甜 特 征 描述 人 体 目标 的 形状 ; 最 后 采用 SVM 对 形状 特征 进行 训练 和 分 类 ， 
检测 可 疑 行为 。 

运动 人 体 目标 提取 的 方法 和 SVM 分 类 器 在 前 文 已 有 论述 ， 这 里 主要 介绍 形状 特征 
的 提取 方法 。 

Hu 和 拢 特征 是 描述 目标 形状 的 常用 方法 ， 对 平移 、 旋 转 、 尺 度 具有 不 变性 。 视 频 图 
像 的 7 个 Hu 不 变 矩 特征 计算 方法 为 : 


Mi = 7110 + To 


M; = (0-110) + 4 
Ms = (m0 —372) + (377 一 To 
Ms = (70 +12) + (12 + 1703)” 


Ms = (7io —372 N70 + m2 [C730 + 7112) —3(7751 + 71703) ]+ 
G34 + 03 C71 + 7170 30 + 71) — C0172 + 10s) ] 


Ms = 10 一 7o)[C1o +12) 一 (072 + 1708) ]+ 
hm (30 + 1112 )(771 + 71103) 


M3 = (312 一 mo)Cjo + ha) [Cn0 + 1772) —3G772 + 178) ]+ 
(3771 —7703 (7121 + 7703 )[3(7730 + 7712 )- (2 + 1730 )] 


其 中 : 
M-l N-1 图 a M-1N-1 CP+g) il 
nm =[22G-D0-7TCDINMT2 TCD } 
i=0 j=0 i=0 j=0 
3 M-l N-l AMf-1N-1 
i=[2 iG DM IGN) 


0 j=0 i=0 j=0 


j= jG DEP. 
Zliy) 表 示 像 素 点 (iy) 处 的 亮度 ，M 和 N 分 别 表示 图 像 的 宽度 和 高 度 。 
对 于 跳跃 、 奔 跑 、 倒 地 、 下 蹲 、 挥 手 和 和 手 拿 异物 等 可 疑 行为 ， 一 般 持续 时 间 为 1~2s。 
为 减少 数据 量 ， 采 用 间隔 抽取 视频 方法 提取 形状 特征 。 这 里 取 3 帧 为 一 个 间隔 ， 共 提取 
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15 帧 图 像 为 一 个 样本 。 对 于 每 一 帧 图 像 ， 提 取 的 Hu 甜 特征 可 以 用 向 量 表示 为 : 
中) ={ MD M;, My, Ms, Ms, M1}, J] =12,…,15 
行为 序列 的 形状 特征 可 以 用 一 个 15x7 的 集合 表示 : 
A=[®, PB, DT 


对 于 提取 到 的 形状 特征 , 采用 SVM 分 类 器 进行 训练 和 分 类 ,实现 可 疑 行 为 的 检测 。 
如 果 检 测 到 可 疑 行为 ， 则 触发 警 情 信号 。 


第 9 章 
海量 视频 摘要 系统 


随 着 多 媒体 技术 的 迅猛 发 展 和 视频 采集 设备 的 普及 ， 视 频 资源 飞速 膨胀 ， 海 量 视频 
数据 中 存在 巨大 元 余 ， 严 重 影响 后 续 的 视频 分 析 与 检索 效率 。 可 采用 视觉 计算 、 机 器 学 
习 、 人 工 智能 等 方法 ， 从 海量 视频 数据 中 ,自动 提取 有 价值 的 视频 画面 ， 以 降低 元 余 度 ， 
形成 视频 摘要 。 


9.1 视频 摘要 


在 分 析 视 频数 据 时 ， 将 相关 主题 的 多 个 视频 搜索 结果 进行 整合 和 精简 ,按照 某 种 逻 
辑 关 系 以 直观 形式 展示 ， 即 视频 摘要 (Video Abstraction)， 视 频 摘 要 可 以 提供 简洁 、 准 
确 、 全 面 的 视频 信息 ， 提 高 海量 视频 数据 的 分 析 效 率 。 

视频 摘要 有 多 种 媒体 和 表现 形式 ， 可 以 是 一 段 文字 、 一 幅 图 像 、 一 段 视频 ， 或 者 由 
多 种 媒体 组 合 而 成 。 

视频 摘要 由 多 媒体 内 容 分 析 与 检索 (Multimedia Content Analysis and Retrieval )、 多 
媒体 搜索 排序 (Multimedia Search Ranking)、 近 似 重复 检测 (Near Duplicate Detection ) 
等 相关 技术 发 展 而 来 , 研究 手段 从 底层 语义 分 析 到 高 层 语义 分 析 , 处 理 对 象 从 单个 视频 、 
多 个 视频 到 海量 视频 。 

依据 表现 形式 的 不 同 ， 视 频 摘要 可 分 为 静态 摘要 和 动态 摘要 。 
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息 ， 


静态 摘要 主要 有 4 种 形式 。 

口 标题 (Title) 

标题 是 对 视频 进行 简短 描述 的 一 个 词 或 一 句 话 ， 采 用 简单 方式 表现 视频 内 容 。 
标题 简单 便捷 ， 但 是 传达 的 信息 量 比较 少 。 

口 海报 (Poster) 

海报 是 指 从 原始 视频 中 抽取 的 某 一 帧 或 几 帧 关键 的 图 像 ， 有 时 还 配 有 相关 的 文字 信 
也 叫 视 频 缩 略图 ， 或 者 视频 代表 帧 。 

海报 可 以 给 用 户 直 观感 受 ， 但 是 仅 能 表现 某 些 时 刻 的 视频 画面 ， 很 难 表 示 视 频 的 具 


体内 容 和 发 生 的 事件 。 


口 故事 板 (Storyboard ) 
故事 板 是 指 对 视频 进行 镜头 切 分 以 及 抽取 出 所 有 关键 帧 之 后 , 将 这 些 关 键 帧 按照 时 


间 顺 序 组 合成 列表 。 


故事 板 包含 更 多 视频 语义 ， 提 供 的 视频 信息 比较 完整 。 

口 幻灯 片 (Slide) 

幻灯 片 是 指 由 视频 中 抽取 的 部 分 关键 帧 组 成 的 GIF 文件 。 

幻灯 片 应 用 于 需要 在 一 个 页 面 中 显示 尽量 多 的 视频 , 如 视频 检索 时 返回 视频 列表 的 


显示 。 


2. 动态 摘要 
动态 摘要 是 一 种 缩 略 视频 ， 由 原始 视频 中 抽取 的 一 些 分 散 的 镜头 拼接 而 成 ， 这 些 镜 


头 最 能 体现 原始 视频 的 主题 。 动 态 摘要 保留 了 原 视 频 风 格 ， 提 供给 用 户 的 信息 丰富 。 


动态 摘要 用 途 广泛 ， 如 电影 和 电视 剧 的 预告 片 等 
9.2 ”视频 摘要 过 程 


海量 视频 摘要 包含 3 个 基本 过 程 。 

口 视频 结构 解析 ( Video parsing ) 

这 是 第 一 个 过 程 ， 将 视频 流 按 照 帧 、 镜 头 、 场 景 等 层次 结构 进行 分 段 。 

口 特征 提取 和 表示 (Feature extraction & representation ) 

这 是 第 二 个 过 程 ， 将 视频 中 的 纹理 、 颜 色 、 形 状 和 运动 等 语义 信息 〈 或 视觉 特征 ) 


提取 出 来 。 
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口 内 容 摘 要 ( Content abstraction ) 

这 是 第 三 个 过 程 ， 从 原 视频 流 中 提取 出 一 些 镜头 、 场 景 以 及 故事 情节 的 子 集 ， 代 表 
原 视频 的 内 容 。 

一 段 视频 的 典型 结构 如 图 9.1 所 示 ， 视 频 结构 解析 的 目的 就 是 将 视频 数据 拆 分 为 表 
征 不 同 层次 含义 的 数据 单元 。 


y t 


像素 
P (wy.t) 


图 像 帧 


图 9.1 视频 数据 内 容 结构 
1. 帧 解析 
帧 Frame) 是 视频 数据 的 最 小 组 成 单元 ， 是 一 幅 静 态 画 面 。 主 流 视频 编码 数据 中 
存在 I、P、B 3 种 帧 类 型 ，I 帧 仅 采 用 帧 内 编码 模式 ， 画 面 质量 最 好 ， 多 用 于 内 容 复杂 
或 变化 大 的 视频 帧 ; P 帧 和 B 帧 使 用 帧 间 编码 为 主 的 编码 模式 ,画面 质 量 相对 较 低 ， 多 
和 于 变化 不 大 的 视频 帧 编码 。 帧 解析 在 于 将 原始 视频 数据 划分 为 不 同类 型 的 帧 序列 。 


算法 9.1 帧 序列 解析 


输入 : 编码 视频 序列 
过 程 : 1. 读 取 视 频 序列 头 ， 确 定 视频 序列 的 编码 标准 ; 
2. 根据 编码 标准 ， 遍 历 所 有 帧 的 帧 头 数据 ， 根 据 帧 头 中 的 帧 类 型 标识 位 ， 
确定 该 帧 的 具体 类 型 。 
输出 : 特定 种 类 的 帧 序列 。 


2. 镜头 解析 
镜头 〈Shot) 指 一 个 摄像 机 从 打开 到 关闭 的 过 程 中 记录 下 来 的 一 组 连续 图 像 帧 ， 由 
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镜头 边界 界定 ， 镜 头 解析 的 目的 在 于 定位 镜头 切换 的 位 置 。 镜 头 切换 方式 可 分 为 两 种 : 
切 变 和 渐变 。 切 变 指 镜头 和 镜头 之 间 没 有 任何 过 渡 , 常用 检测 算法 主要 有 像素 对 比较 法 、 
模板 比较 法 、 颜 色 直方 图 比较 法 等 ; 渐变 指 一 个 镜头 以 变换 、 溶 入 等 方式 缓慢 变化 到 另 
一 个 镜头 ， 常 用 检测 算法 主要 有 差 值 直方 图 法 等 。 


算法 9.2 ”基于 像素 对 比较 的 镜头 解析 


输入 : 视频 帧 序列 
过 程 : 1. 读 取 当 前 帧 视频 画面 (iy)， 将 其 转换 为 8 位 灰 度 图 像 gd(i); 
2. 计算 当前 帧 灰 度 图 像 gc(iy) 与 前 一 帧 灰 度 图 像 gy(iy) 的 距离 dge; 


2 


dg. =1-—™ 


(7)-g, i) 


Ex fx255 
3. 如 果 必 。 大 于 预 设 阔 值 ， 则 当前 帧 为 切 变 镜头 边界 。 


输出 ， 切 变 镜头 边界 。 


算法 9.3 ”基于 灰 度 直方 图 比较 的 镜头 解析 
输入 : 视频 帧 序列 
过 程 : 1. 读 取 当 前 帧 视频 画面 大， 将 其 转换 为 8 位 灰 度 图 像 ge: 
2. 根据 灰 度 图 像 生成 256 级 灰 度 直方 图 h(i),i= 0 …,255 ; 
3. 计算 当前 帧 灰 度 直方 图 psi 与 前 一 帧 灰 度 直方 图 h(i) 的 距离 dr， 式 中 
N 为 像素 点 总 数 ， 
Dmin (h(i),h, (7) 
.=1 Ty 
4. 如 果 dr 大 于 预 设 阔 值 ， 则 当前 帧 为 切 变 镜头 边界 。 
输出 ， 切 变 镜头 边界 。 


,i=0,1,.…,255 


算法 9.4 ”基于 差 值 直方 图 的 镜头 解析 


输入 : 视频 帧 序列 
过 程 : 1. 读 取 当 前 帧 视频 画面 万 将 其 转换 为 8 位 灰 度 图 像 gc; 
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2. 根据 灰 度 图 像 生成 256 级 灰 度 直方 图 h(j),j = 0,1,…,255 ; 
3. 计算 当前 帧 灰 度 直方 图 h)) 与 前 一 帧 灰 度 直方 图 加,(j) 的 距离 dhi， 式 
中 N 为 像素 点 总 数 ; 
Dmin(n (7),h, (7) 


矶 = 一 人 /04…255 


4. 如 果 dm 大 于 预 设 阔 值 TH1(， 则 当前 帧 为 候选 渐变 镜头 起 始 边 界 ， 记 为 
F; 

5. 计算 与 其 后 各 帧 灰 度 直方 图 的 距离 ddhiw， 以 及 各 帧 对 应 的 dhirn; 

Dmin(h (7).4,, (7))) 
dh =1-- 一 ， 
N 

如 果 对 于 某 一 个 mm， 有 如 下 关系 成 立 ， 则 fi 帧 为 候选 渐变 镜头 结束 边 
界 ， 记 为 fe， 其 中 7 环 为 预 设 阔 值 ， 且 有 THi>THi。 


dl > TH, 
dh, 


+n < TH, 


j={0,1,.…,255}, n= {1,2,…} 


在 得 到 F。 之前， 如 果 对 于 某 个 wm， 有 如 下 关系 成 立 ， 则 清除 候选 渐变 
镜头 起 始 边界 到， 返回 第 1 步 ， 

di <TH, 

dh >7H, 


itn 


6. 从 FF 和 Fi 之 间 的 所 有 帧 (包括 F 和 F。) 中 任 选 一 帧 作为 渐变 镜头 边 
界 。 
输出 ; 渐变 镜头 边界 。 
3. 关键 帧 解析 


一 个 镜头 不 论 长 短 往往 带 有 大 量 元 余 信 息 ， 整 个 视频 序列 表示 和 处 理 都 不 方便 ， 因 
此 需要 从 视频 序列 中 提取 出 具有 代表 性 的 多 帧 ， 表 示 整 个 视频 序列 ， 即 关键 帧 (Key 
Frame )。 

最 简单 的 关键 帧 选取 方法 是 从 镜头 中 任 选 一 帧 ， 如 果 对 关键 帧 的 提取 质量 要 求 较 
高 ， 则 可 以 采用 帧 平均 法 、 直 方 图 平均 法 、 逐 帧 对 比 法 和 光 流 方法 等 。 
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4. 场景 解析 


场景 (Scene) 指 视频 中 的 独立 故事 单元 ， 是 一 个 高 层 概念 。 场 景 解析 通常 称 为 故 
事 单元 分 割 ， 对 于 已 分 割 出 的 镜头 ， 依 据 视频 中 的 文本 、 声 音 等 信息 进行 聚 类 ， 聚 类 后 
合并 内 容 相近 的 连续 镜头 ， 得 到 一 个 单元 组 ， 称 为 场景 信息 ， 它 可 以 为 视频 内 容 分 析 提 
供 基 础 。 

基本 的 场景 解析 算法 步骤 如 下 。 

CLT01 对 视频 进行 镜头 检测 . 

C2702 依据 环境 距离 对 镜头 进行 聚 类 . 

C2203 将 其 中 有 镜头 采用 淡 入 淡出 衔接 方式 的 场景 分 为 两 个 场景 . 

E2304 将 场景 之 间 的 “缝隙 ”作为 一 个 新 的 场景 。 


9.3 ”特征 提取 和 表示 
9.3.1 颜色 特征 提取 


在 视频 分 析 中 ， 颜 色 特征 是 应 用 最 广泛 的 视觉 特征 ， 它 计算 简单 ， 同 时 对 图 像 本 身 
的 尺寸 、 方 向 、 视 角 的 依赖 性 较 小 。 常 用 颜色 特征 包括 颜色 直方 图 、 累 积 直方 图 、 加 权 
直方 图 和 颜色 算 等 。 

1. 颜色 直方 图 

颜色 直方 图 是 对 一 幅 图 像 中 所 有 像素 的 颜色 取 值 所 作 的 统计 ,描述 不 同色 彩 在 整 幅 
图 像 中 所 占 比 例 ， 不 关心 每 种 色彩 所 处 的 空间 位 置 ， 可 描述 不 需要 考虑 特定 物体 空间 位 
置 的 图 像 内 容 。 

如 表 9.1 所 示 ， 依 据 不 同 的 颜色 空间 ， 可 以 得 到 不 同 的 颜色 直方 图 。 


表 9.1 常用 的 颜色 空间 和 对 应 直方 图 取 值 范围 


RGB 颜色 空间 HSI 颜色 空间 


i R G B H S I 
名 导 Red Green Blue Hue Saturation | Intensity 
红色 绿色 蓝 色 色调 饱和 度 “| 亮度 
直方 图 


0~255 0~255 0~255 0~359 | 0~100 0~255 
取 值 范围 
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2. 累积 直方 图 


对 于 标准 直方 图 ， 如 果 原 始 图 像 不 能 遍历 所 有 可 能 的 颜色 取 值 ， 直 方 图 中 会 存在 较 
多 的 零 值 ， 会 影响 衡量 直方 图 距离 的 相交 运算 ， 可 考虑 使 用 累积 直方 图 。 

在 累积 直方 图 中 , 每 个 颜色 分 量 对 应 的 值 是 所 有 小 于 等 于 该 颜色 分 量 的 像素 数 所 占 
比例 ， 可 极 大 减少 零 值 出 现 的 概率 。 其 中 hi 是 标准 颜色 直方 图 中 第 i 个 颜色 分 量 对 应 的 
值 ，h/' 是 累积 直方 图 中 第 i 个 颜色 分 量 对 应 的 值 。 


i 
j=0 


3. 加 权 直 方 图 


人 眼 对 于 颜色 空间 中 各 个 分 量 的 感受 程度 存在 一 定 差别 ， 在 实际 分 析 时 ， 可 以 为 每 
种 颜色 分 量 附加 不 同 的 加 权 系 数 ， 以 起 到 突出 特定 分 量 的 作用 。 如 对 于 HIS， 人 了 眼 对 H 
分 量 最 为 敏感 ， 加 权 系数 可 设 为 0.7; S 分 量 次 之 ， 加 权 系 数 可 设 为 0.2; I 分量 相对 最 
不 敏感 ， 加 权 系 数 可 设 为 0.1。 在 采用 加 权 直 方 图 衡量 两 幅 图 像 P、Q 之 间 的 差异 时 ，H 
分 量 的 作用 就 会 明显 提高 。 

加 权 前 : D(P,O)= 必 (PO)+ 必 (PCO)+d(PO) 
加 权 后 : D(P,@)=0.7xds (P,Q)+02xd, (P,QO)+0.1xd, (P,0) 


其 中 4 表示 直方 图 间 的 距离 。 
4. 颜色 矩 


颜色 矩 是 对 图 像 颜 色 特征 的 近似 ， 能 够 有 效 地 表征 图 像 的 颜色 分 布 ， 计 算 时 无 须 对 
颜色 进行 量化 处 理 ， 同 时 要 能 降低 颜色 特征 的 维 数 。 在 颜色 和 矩 中 ,颜色 分 布 信息 主要 集 
中 在 低 阶 矩 中 ， 一 阶 窍 /描述 平均 颜色 ， 二 阶 窍 ao 描述 颜色 方差 ， 三 阶 算 s 描述 颜色 的 偏 
移 性 。 其 中 ， 加 表示 第 i 颜色 通道 中 灰 度 为 j 的 像素 出 现 的 概率 ，n 表示 砍 度 级 数 。 
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9.3.2 ”纹理 特征 提取 


纹理 特征 包含 物体 表面 结构 排列 的 重要 信息 ， 通 常 局 部 呈现 不 规则 性 ， 整 体 上 呈现 
有 规律 的 特性 。 灰 度 共生 和 矩阵 和 Gabor 滤波 器 是 纹理 特征 提取 的 常用 手段 。 


1. 灰 度 共生 矩阵 


灰 度 共生 矩阵 称 为 空间 灰 度 依赖 矩阵 (Spatial Grey Level Dependence Matrix， 
SGLDM) ， 通 过 统计 满足 特定 位 移 关 系 和 特定 灰 度 值 的 像素 点 对 来 构造 矩阵 ， 描 述 视 
频 图 像 的 纹理 特征 。 

设 ftry) 是 一 幅 MXN 的 二 维 视频 图 像 ， 灰 度 级 别 为 Nws， 则 灰 度 共生 矩阵 P(iy) 为 : 


P(i,j)=#{(m53),(%, 7 ) Ee MXN| f(A )=6f (ny»)=) 


其 中 ，#) 为 集合 中 元 素 的 个 数 。 

如 果 考 虑 (xn,3) 、( 二 ,六 ) 的 间距 d、 两 点 连 线 与 坐标 横 轴 的 夹 角 9， 则 灰 度 共生 算 
阵 可 扩充 为 P(i,j,d,0) 。 

在 使 用 灰 度 共生 矩阵 表述 纹理 特征 时 ， 常 用 的 统计 函数 如 下 。 

口 能 量 (Energy ) 

能 量 反 映 视 频 图 像 的 灰 度 分 布 均匀 程度 和 纹理 粗细 度 , 数值 越 大 表示 图 像 灰 度 分 布 
越 均匀 ， 计 算式 为 : 


Energy = DP(LYY 
厅 


口 对 比 度 (Contrast ) 
对 比 度 反映 视频 图 像 的 清晰 度 和 纹理 沟 纹 深浅 程度 ， 数 值 越 大 表示 图 像 越 清晰 、 纹 
理 沟 纹 越 深 ， 计 算式 为 : 


Contrast= (i-j) P(i,j) 
bj 
口 相关 (Correlation ) 


相关 用 于 度量 灰 度 共生 甜 阵 元 素 在 行 或 列 方向 上 的 相似 程度 ,反映 图 像 中 局 部 灰 度 
相关 性 ， 计 算式 为 : 
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DixjxP(5)) -px 4, 
Correlation = 


oO.xo, 


spn) gn) 
“=o( ZeaCojm=ol Ze 


口 六 (Entropy) 
炉 用 于 度量 视频 图 像 具 有 的 信息 量 ， 反 映 图 像 纹 理 的 非 均 匀 程 度 或 复杂 程度 计算 
式 为 : 


Entropy = -P(N)x log[ P(i, 中] 


口 逆差 矩 (IDM ) 
逆差 矩 用 于 度量 视频 图 像 纹理 局 部 变化 程度 ， 反 映 图 像 纹理 的 同 质 性 ， 数 值 越 大 表 
明 图 像 区 域 变化 越 小 ， 计 算式 为 : 


IDM = De xP(i,)) 


2. Gabor 滤波 器 


Gabor 滤波 器 是 在 Fourier 变换 的 基础 上 增加 一 个 Gaussian 窗口 函数 ， 可 以 通过 不 
同 尺度 和 方向 滤波 器 的 设计 来 反映 图 像 局 部 像素 分 布 特征 ,对 图 像 纹 理 有 非常 强 的 描述 
能 力 。 通 常 的 做 法 是 设计 合适 的 Gabor 滤波 器 去 过 滤 图 像 ， 对 过 滤 后 的 图 像 提 取 能 量 统 
计 特 征 作为 纹理 特征 ,一 种 有 效 的 Gabor 纹理 表示 g(x,y) 及 对 应 的 Fourier 变换 G(w,v) 为 : 


1 Ea 
,yp)= exp| ——| 二 + 二 |+2x i 
g(z7) Ez | i oo, i 
2 


通过 对 g(xy) 进 行 膨胀 (比例 因子 > 》 和 旋转 (角度 9) ， 可 得 到 一 组 Gabor 滤波 器 
gzKxy) 用 于 纹理 特征 提取 : 
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go (Ty)=zxg(x"»') 
Xx'=2zx(xcosO+ ysinO) 


J"=zx(-xsing+ycosO) 
9.3.3 ”形状 特征 提取 
形状 是 物体 的 基本 特征 之 一 ， 形 状 描述 方法 主要 有 Fourier 描述 子 、 曲 率 描述 子 、 
Zemike 年 等 。 
1. Fourier 描述 子 
设 {(zsz)=012…, 天 -二 是 构成 二 维 平面 中 封闭 边界 的 点 集 ， 将 其 用 复数 形式 转 
化 为 一 维 序列 s( 局 。 
s (Kk) = 区 二 六 
对 s( 有 做 Fourier 变换 ， 得 到 边界 的 Fourier 描述 子 SC0)。 
1 所 ~—j2xuk/K 
S(u)= EO Fe J 


S(w) 的 高 频 分量 对 应 轮廓 的 细节 分 量 ， 低 频 分 量 对 应 轮廓 的 基本 形状 ， 因 此 可 以 采 
用 少量 的 低频 Fourier 系数 即 可 实现 图 像 轮廓 的 重建 。 归 一 化 的 Fourier 描述 子 具有 旋转 、 
平移 和 缩放 不 变性 ， 并 且 与 轮廓 的 起 点 无 关 。 


2. 曲率 描述 子 


使 用 曲线 的 弧 长 1 为 参数 对 闭合 轮廓 曲线 的 平面 坐标 x、y 进行 参数 化 。 以 任意 一 点 
为 起 点 ， 顺 时 针 跟 踪 轮 廊 ， 并 对 /进行 归 一 化 ， 将 轮廓 曲线 表示 为 : 


c=eOyOPe[o 
曲率 描述 子 KD) 的 计算 式 为 : 
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x(/)xy(0)-x()xy() 


[OO] 


3. Zernike 和 拢 


Zernike 托 是 一 种 正 交 复数 矩 ， 所 利用 的 正 交 多 项 式 集 是 一 个 在 单位 圆 内 的 完备 正 


z= ,abr (Tf (ev) day 


式 中 Axy) 为 原始 图 像 , V, (x,y) 为 Zernike 多 项 式 ,“*” 代 表 复 共 轿 , m= {0,1…,%} ， 
nn 为 整数 ， 且 有 (mm 一 四 为 非 负 偶 数 。 

Zemike 矩 的 基态 ,, (x,y) 是 正 交 径 向 多 项 式 , 可 以 保证 所 提取 特征 的 相关 性 小 、 元 余 
性 小 、 抗 噪声 能 力 强 ， 且 具有 平移 不 变性 。 一 幅 图 像 的 形状 特征 可 以 用 一 组 Zemike 矩 
特征 向 量 很 好 地 表示 ， 其 中 低 阶 矩 描述 整体 形状 ， 高 阶 矩 描述 目标 细节 。 

9.3.4 运动 特征 提取 

运动 特征 指 视频 中 随时 间 变 化 的 特征 ， 主 要 由 两 部 分 组 成 ， 一 是 反映 摄像 机 运动 的 
背景 运动 特征 ， 二 是 目标 运动 的 前 景 运动 特征 ， 这 些 特征 对 视频 内 容 描述 和 理解 非常 重 
要 ， 是 视频 数据 独 有 的 特征 。 

1. 背景 运动 特征 

摄像 机 的 运动 主要 有 7 种 : Panning (左右 转动 ) 、Tilting (上 下 转动 ) 、Zooming 
(焦距 变化 ) 、Tracking (水 平 追踪 ) 、Booming (垂直 追踪 ) 、Dollying (前 后 追踪 ) 、 


Rolling〈 绕 光 轴 旋转 ) 。 如 图 9.2 所 示 ， 提 取 全 局 运动 特征 常用 基于 参数 模型 的 全 局 运 
动 估计 方法 。 
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图 9.2 基于 参数 模型 的 全 局 运动 估计 


常用 特征 点 提取 方法 有 SUSAN、Harris 和 SIFT 等 算 子 , 其 中 Harris 算 子 计算 简单 、 
稳定 ， 应 用 广泛 ， 计 算 方法 如 下 。 
EX 图 像 求 导 ， 其 中 大、 大分 别 对 应 像素 点 在 x、?y 方向 的 倒数 。 


2+y ye EF 
M= 二 exp = 到 yy 四 | Wg 
27G 20 0 og 


对 角 化 0 
= 到“ b 上 


4 
CET02 计算 M 的 行列 式 det 和 秩 TY. 
det(M)=4+b 
六 (WMA)=4x4 


CT03 计算 Harris 算 子 ， 其 中 上 为 默认 常数 ( 常 为 0.02~0.04) 。 
R=det(M)-kxTr’(M) 


004 当 尺 大 于 预 设 闭 值 且 为 局 部 极 值 时 ， 该 点 为 所 求 特征 点 。 
下 面 是 特征 点 匹配 常用 的 模板 法 。 


算法 9.5 ”基于 模板 法 的 特征 点 匹配 


输入 ， 属 于 不 同 帧 的 两 个 特征 点 p(xiy)、glwwy) 
过 程 ，1. 在 两 帧 中 以 pGeg)、gQgs) 为 中 心 ，R 为 半径 划 定 待 匹配 区 域 P、Q,: 


2. 计算 Pi 和 9; 的 相似 度 S4Dy; 
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$4Di = Ele (x.») = (x.») 


3. 如 果 S4D; 小 于 预 设 阔 值 ， 则 pCayi)、gG52) 构 成 匹配 点 对 。 
输出 :_pQwy)、gC5sD 的 匹配 结 


摄像 机 的 运动 使 视频 图 像 中 像素 点 的 坐标 从 三 1 帧 的 CeruycD) 处 移动 到 上 帧 的 coop 
处 ， 坐 标 变换 量 满足 一 定 运动 变换 模型 ， 即 ; 


(%ia ;4) 去 f(x sD) 


常见 变换 模型 如 下 。 
口 二 参数 运动 模型 
可 表征 平移 运动 ，(c,q) 为 沿 坐标 轴 的 偏 移 量 。 
加 4 
Dyin=Ptd 
口 四 参数 仿 射 运动 模型 
可 表征 平移 、 旋 转 、 伸 缩 运动 ，) 为 缩放 参数 ， 的 旋转 角度 。 
| je | 间 
= 十 
7 sing cosO J\ vy d 

_ [fa -bx c 

ey 
在 求 得 匹配 点 对 并 建立 变换 模型 之 后 ， 可 通过 最 小 二 乘法 估计 变换 模型 中 的 参数 ， 

得 到 全 局 运动 特征 。 
2. 前 景 运动 特征 
前 景 运动 特征 的 提取 分 为 3 步 : 运动 目标 分 割 、 运 动 目标 跟踪 和 运动 特征 提取 。 
口 运动 目标 分 割 
将 运动 前 景 与 背景 分 离 ， 具 体 步 又 如 下 。 
G01 对 输入 视频 数据 进行 全 局 运动 检测 ， 对 存在 全 局 运动 的 数据 进行 运动 补 
偿 ， 消 除 摄像 机 运动 的 影响 。 

采用 时 间 差 分 法 、 背 景 减 除法 或 光 流 法 提取 前 景 运动 目标 。 
口 运动 目标 跟踪 
在 一 段 视频 序列 中 将 隶属 于 同一 运动 目标 的 区 域 分 割 出 来 ， 用 于 后 续 运 动 特征 提 
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取 。 相 关 算 法 参见 7.2.1 小 节 。 
口 运动 特征 提取 
在 得 到 运动 目标 序列 之 后 ， 可 提取 目标 的 运动 特征 。 


算法 9.6 ”瞬时 全 局 运动 速度 与 方向 提取 


输入 : 相 邻 两 帧 视频 画面 中 隶属 于 同一 运动 目标 的 区 域 4;、4i1。 
过 程 : 1. 提取 4;、4i1 的 重心 cgj、cgii; 
2. 连接 cgi1 与 cgy， 得 到 当前 帧 目标 整体 运动 矢量 Myi; 
3. Mai 的 指向 即 为 目标 瞬时 运动 方向 ， 
Mi 的 长 度 和 帧 间隔 之 比 为 目标 瞬时 运动 速度 。 
输出 : 当前 帧 目标 瞬时 运动 方向 和 速度 。 


算法 9.7 了 瞬时 全 局 运动 速度 变化 量 和 方向 变化 量 提取 
输入 ， 相 邻 两 帧 视频 画面 中 隶属 于 同一 运动 目标 的 整体 运动 矢量 My、Mir。 
过 程 : 1. 计算 Muw 和 Mi 的 差 值 ; 

DM = Ms —M 


2. DM4 的 指向 为 运动 方向 的 变化 量 ，DM 的 幅 值 和 帧 间隔 之 比 为 运动 加 
输出 ;当前 帧 目标 瞬时 运动 方向 变化 和 加 速度 。 


算法 9.8 ”运动 轨迹 提取 
输入 :视频 序列 中 隶属 于 同一 运动 目标 的 区 域 L4i}。 
过 程 : 对 每 二 个 Ai, 提取 其 质心 Cai; 
2. 将 所 有 cg; 按 时 间 顺 序 相连 ， 得 到 目标 运动 轨迹 。 


9.3.5 ”音频 特征 提取 


与 视频 内 容 同 步 的 音频 特征 能 够 表征 视频 内 容 的 重要 程度 ， 如 在 视频 监视 系统 中 ， 
当 呼 救 、 大 声 喊 叫 、 磁 撞 声 、 枪 声 等 异常 声音 出 现时 ， 意 味 着 此 时 的 视频 内 容 中 可 能 
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含 值得 注意 的 异常 行为 。 
下 面 介绍 常用 的 音频 特征 。 
1. 梅 尔 频 谱系 数 (MFCC) 


鉴于 人 的 听觉 特性 , 提取 音频 特征 时 , MFCC (Mel-Frequency Cepstrum Coefficients) 
利用 Mel 频率 刻度 ， 对 声音 频率 进行 变换 。 具 体 地 ,依据 人 耳 感 受 声音 时 声音 高 低 和 频 
率 间 的 非 线 性 关系 ,实现 声音 信号 频谱 到 基于 Mel 频率 点 的 非 线性 频谱 的 转换 ， 最 终 再 
转换 到 倒 谱 域 上 。 

在 MFCC 转换 过 程 中 ， 考 虑 到 频率 轴 上 的 FFT 变换 谱 线 等 间隔 分 布 ，FFT 变换 谱 
线 经 常 使 用 一 组 滤波 器 组 进行 滤波 ， 该 滤波 器 组 依据 人 耳 听 觉 的 临界 频带 分 布 进行 设 
计 ， 中 心 频率 尽管 在 频率 轴 上 非 均匀 分 布 ， 但 在 Mel 频率 轴 上 却 是 等 间隔 分 布 的 ， 其 非 
线性 特性 与 人 耳 听 觉 相 似 。 

2. 短 时 过 零 率 

过 零 率 是 信号 频谱 特性 的 反映 。 离 散 时 间 信 号 的 波形 与 零 电 平 的 横 轴 相交 时 ， 称 为 
“过 零 ” 此 时 信号 的 两 个 相 邻 采样 点 的 符号 相反 。 

平均 过 零 率 可 以 通过 计算 单位 时 间 内 采样 点 符号 的 改变 次 数 得 到 。 短 时 平均 过 零 率 
定义 为 : 


Z, = py |sgn[x[m]—sgn[x(m— Dwn—m) 


出 = 一 o 


其 中 ，sgn 中 为 符号 函数 ，w(n-m) 为 窗口 函数 。 
1 >0 
sen|Ool= 全， 0 
在 矩形 窗 条 件 下 ， 可 以 简化 为 : 


z= | [sgn[x(m) —sgn[x(m—D)]| 


号 的 能 量 随 着 时 间 变 化 比较 明显 ,声音 信号 的 短 时 能 量 分 析 能 够 很 好 地 描述 
幅度 变化 。 短 时 能 量 的 波形 随 着 声音 信号 的 幅度 而 变化 ， 能 很 好 地 体现 声音 信号 的 时 域 
信息 。 
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短 时 帧 能 量 等 于 该 段 语 音 取 样 值 的 平方 和 ， 在 实际 应 用 中 可 用 平均 幅 值 代替 。 

4. 基 音 周期 

声音 中 浊音 信号 的 周期 称 为 基 音 周期 ,是 振动 频率 的 倒数 ， 基 音 周期 的 估计 称 为 基 
音 检测 ， 通 常 利 用 自 相关 函数 进行 基 音 检测 。 对 于 离散 的 数字 声音 信号 序列 x(n)， 自 相 
关 函 数 为 : 


Rb = Dx(m)e(mth) 


其 中 ,为 声音 信号 的 延迟 点 数 。 对 于 随机 信号 或 周期 信号 序列 ， 自 相关 函数 定义 
为 : 


RO)= lm (mnth) 


如 果 序列 x(n) 具 有 周期 N,， 则 自 相 关 函 数 是 同 周期 的 周期 函数 ， 即 : 
x(n)=x(n+N;) 


则 
R(K)=R(k+N,) 
5. 带宽 
带宽 为 取样 信号 的 频率 值 范围 ， 用 于 表征 音频 信号 的 类 型 。 


9.4 典型 系统 


视频 摘要 最 早 可 追溯 到 20 世纪 90 年 代 中 后 期 美国 卡 内 基 梅 隆 大 学 开发 的 
Informedia 工程 , 德国 曼 海 姆 大 学 的 MoCA 系统 、 美 国 IBM 的 QBIC 系统 、 美 国 FX Palo 
Alto 实验 室 的 Video Manga 系统 、 新 加 坡 国立 大 学 的 SWIM 系统 等 都 是 具有 代表 性 的 视 

北京 大 学 、 清 华 大 学 、 浙 江 大 学 、 中 科 院 自动 化 所 、 国 防 科 技 大 学 等 单位 深入 研究 
视频 摘要 ， 其 中 国防 科技 大 学 海量 视频 分 析 与 安全 预警 研究 中 心 (VAP) 研发 的 “面向 
安全 监视 的 海量 视频 摘要 系统 ”获得 了 第 七 届 国 际 发 明 展览 会 金奖 。 


230 视觉 大 数据 基础 与 应 用 


1. Informedia: News-on-Demand 


近年 来 互联 网 的 多 媒体 数据 呈现 爆炸 式 增长 ， 美 国 卡 内 基 梅 隆 大 学 开展 了 
Informedia 工程 ， 创 建 能 够 对 文字 、 图 像 、 音 频 、 视 频 内 容 进 行 完 全 检索 的 数字 图 书馆 。 

Informedia 工程 综合 自然 语言 理解 、 图 像 处 理 、 语 音 识 别 和 视频 压缩 等 领域 的 相 
关 研 究 成 果 ， 极 大 提高 了 用 户 使 用 多 媒体 信息 的 深度 和 广度 。 它 将 视频 数据 分 割 为 
逻辑 片段 ， 根 据 逻 辑 片 段 所 包含 的 具体 内 容 生 成 对 应 的 索引 。 用 户 在 查找 视频 信息 
时 可 以 直接 搜索 索引 信息 ， 并 快速 跳 转 到 所 需 的 逻辑 片段 。 用 户 通过 Informedia 数 
字 图 书馆 进行 信息 检索 时 可 以 直接 输入 关键 字 (通过 键盘 或 麦克 风 ) 或 者 选择 系统 
中 预 设 的 分 类 条 目 ， 系 统 可 以 智能 识别 用 户 的 输入 请 求 ， 并 选择 和 用 户 要 求 最 相关 
的 内 容 发 送 给 用 户 。 

News-on-Demand (新 闻 点 播 ) 是 Informedia 工程 的 一 个 具体 应 用 , 能 够 自动 从 视频 、 
音频 、 文 字 媒体 中 抓 取 用 户 感 兴趣 的 新 闻 内 容 。 新 闻 是 一 种 时 效 性 很 强 的 数据 ， 每 时 每 
刻 都 有 新 的 新 闻 数 据 产 生 , 依靠 人 力 管 理 这 些 数据 是 异常 艰巨 的 任务 。News-on-Demand 
借助 先进 的 计算 机 技术 ， 极 大 提高 了 对 新 闻 数 据 的 管理 能 力 。 

News-on-Demand 的 基本 工作 流程 和 相关 技术 (图 9.3) 如 下 。 


人 EXOi 对 音频 、 视 频数 据 进行 数字 化 和 压缩 编码 (MPEG-X) 。 

CW02 依据 视频 字幕 或 语音 识别 结果 创建 视频 的 时 间 线 (HMMs、 码 书 ) 。 
CET03 分 割 故 事 边界 (基于 颜色 直方 图 的 场景 分 割 ) 。 

CT04 分 割 场景 关键 帧 (基于 光 流 法 的 运动 目标 检测 ) 。 

C05 使 用 Informedia 系统 对 视频 形成 索引 . 


2. QBIC 


QBIC (Query By Image Content) 是 IBM 开发 的 基于 内 容 的 海量 多 媒体 数据 检索 系 
统 。 通 过 分 析 颜 色 、 形 状 、 纹 理 和 骨架 特征 ， 使 用 户 可 以 从 海量 视频 、 图 像 数 据 库 中 检 
索 到 特定 信息 。 其 架构 如 图 9.4 所 示 。 
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图 像 提 取 自然 语言 解释 


索引 数据 库 
索引 副本 


图 93 ”Informedia: News-on-Demand 架构 
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查询 界面 
形状 。 ”多 目标 上 骨架 。 位 置 。 ”文本 


特定 位 置 的 a i 
颜色 /纹理 。 目标 运动 ”摄像 机 运动 ”用 户 自 定义 


特定 位 置 的 
颜色 /纹理 


目标 运动 ”摄像 机 运动 用户 自 定义 


用 户 按 相 似 度 顺序 返回 
最 佳 匹配 


图 9.4 QBIC 架构 
QBIC 系统 支持 如 下 检索 方式 : 
口 用 户 给 出 模板 图 片 ， 系 统 根据 图 片 搜索 ; 
口 用 户 绘制 出 骨架 草图 ， 系 统 根据 骨架 草图 搜索 ; 
口 用 户 从 颜色 、 纹 理 集 中 选取 目标 特性 ， 系 统 根据 此 特性 搜索 。 


9 章 海量 视频 摘要 系统 233 
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3. Video Manga 
Video Manga 是 美国 FX Palo Alto 实验 室 开 发 的 视频 摘要 系统 ， 基 本 工作 流程 如 下 。 


G301 通过 分 析 视 频 图 像 和 对 应 的 音频 特征 ， 对 视频 画面 进行 聚 类 ， 将 原始 视频 
分 为 多 个 故事 {5i} ， 每 个 故事 由 若干 个 片段 {C 分 组 成 。 


CI02 以 故事 的 长 度 ZLs 为 标准 ， 计 算 每 个 故事 的 权重 静 。 
| MM 
Ws 
” 交 后 


CELT03 计算 每 个 视频 片段 的 重要 性 万 。 
Ti=Li logW 


G004 依据 片段 的 重要 性 选取 出 关键 帧 。 
C205 依据 故事 的 权重 设 定 关键 帧 的 尺寸 , 并 将 所 有 关键 帧 组 合成 漫画 形式 的 视 
频 摘要 . 


图 9.5 显示 该 系统 的 一 个 实例 。 


图 9.5 Video Manga 系统 实例 


海量 视频 管控 平台 面向 视觉 大 数据 ， 基 于 海量 视频 模型 ， 采 用 Hadoop 等 数据 处 理 
框架 ， 通 过 视频 分 析 方 法 ， 给 用 户 提供 友好 的 、 可 视 的 、 智 能 的 海量 视频 管理 和 操控 工 
具 。 

本 章 以 某 地 级 市 为 例 ， 详 细 曾 述 基于 海量 视频 管控 平台 的 视频 监控 与 回放 、 视 图 无 
颖 融合 、 大 规模 人 脸 等 目标 监测 、 异 常 行为 检测 、 海 量 视频 摘要 、 高 清 卡 口 车 辆 信息 搜 
索 等 功能 。 


10.1 平台 要 求 


海量 视频 管控 平台 有 以 下 3 点 要 求 。 
1. 先进 性 


采用 先进 的 视频 处 理 、 分 析 与 理解 技术 ， 支 持 高 清 图 像 大 数据 量 的 稳定 传输 功能 
支持 海量 视频 数据 的 高 效 解码 和 快速 识别 功能 ， 支 持 高 清 视 频 的 高 画 质 可 视 化 功能 。 


2. 安全 性 


很 多 海量 视频 数据 涉及 国家 安全 和 公民 隐私 ， 平 台 应 该 具有 防范 计算 机 病毒 的 能 
力 ， 有 很 强 的 抗 干扰 能 力 ， 具 有 授权 密码 、 多 级 控制 、 设 防 级 别 等 功能 ， 避 免 遭 遇 恶 意 


攻击 、 非 法 提取 数据 等 违法 行为 。 

3. 兼容 性 

在 传输 协议 、 数 据 接口 、SDK 控件 、 记 录 结 构 等 多 层面 ， 支 持 对 符合 标准 的 模块 、 
设备 、 数 据 库 、 子 系统 等 无 颖 接 入 。 对 于 设备 类 的 对 接 ， 采 用 标准 的 网 络 协议 ， 稳 定 、 
高 效 地 接 入 到 平台 之 中 。 对 于 数据 库 类 的 交换 ， 提 供 数据 分 类 导入 、 导 出 功能 ， 方 便 海 
量 视频 数据 共享 。 


10.2 平台 架构 


如 图 10.1 所 示 , 海量 视频 管控 平台 从 上 至 下 共 分 4 个 层次 , 分 别 是 用 户 界 面 层 、 业 
务 应 用 层 、 系 统 服务 层 和 设备 接 入 层 。 


业务 应 用 层 


数据 转发 存储 子 系统 


设备 管理 服务 [ 数据 转发 服务 数据 存储 服务 


数据 库 服务 识别 代理 服务 GIS 服 务 


设备 接 入 层 网 络 连 所 [CC 数据 通信 


图 10.1 平台 架构 
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1. 设备 接 入 层 

海量 视频 管控 平台 要 实现 数据 综合 、 处 理 、 流 转 、 运 行 ，90% 以 上 的 数据 由 前 端 采 
集 设备 收集 、 传 输 而 来 ， 平 台 需 要 与 这 些 设备 连接 、 交 互 。 

该 平台 单独 封装 设备 接 入 层 ， 完 成 服务 器 和 前 端 设备 、 客 户 端 等 之 间 的 网 络 连接 、 
协议 解析 、 数 据 通信 等 功能 。 

2. 系统 服务 层 


该 平台 面向 庞大 数据 库 ， 独 立 封装 功能 服务 器 ， 使 整个 服务 器 结构 灵活 ， 规 模 可 扩 
展 性 强 ， 功 能 之 间 耦 合 性 低 ， 使 整个 系统 稳定 、 有 序 、 高 效 运行 。 

系统 服务 层 提供 中 心 管理 、 设 备 管理 、 媒 体 转发 、 媒 体 存储 、 图 像 管 理 、 目 标识 别 
等 多 种 服务 。 


3. 业务 应 用 层 


业务 应 用 层面 对 用 户 的 系统 客户 端 功 能 呈现 ， 方 便 用 户 对 系统 设备 、 用 户 、 任 务 的 
管控 ， 实 现 了 系统 整体 性 、 用 户 便 捷 性 、 运 行 稳定 性 。 

业务 应 用 层 的 业务 包括 : 实时 监视 、 录 像 回放 、 日 志 管理 等 视频 监控 业务 ， 卡 口 管 
理 、 电 子 警 察 管理 、 车 牌 识别 、 布 控 撤 防 等 交通 管理 业务 ， 大 屏 接 入 、 数 字 和 矩阵 等 人 机 
交互 业务 ;设备 管理 、 用 户 管理 、 权 限 管理 、 录 像 计 划 等 系统 管理 业务 。 

4. 用 户 界面 层 

平台 采用 B/S 展现 模式 ， 便 于 异地 浏览 ， 只 要 连通 网 络 ， 可 以 把 任何 计算 机 看 做 客 
户 端 ， 在 任何 时 间 、 任 何 地 点 、 任 何 系统 中 ， 使 用 浏览 器 直接 连接 服务 器 。 

视频 显示 模块 采用 C/S 的 嵌入 插件 方式 ， 该 方式 具有 信息 采集 灵活 、 负 载 均衡 、 服 
务 稳定 的 优点 ， 增 强 了 客户 端的 事务 处 理 能 力 ， 减 轻 了 服务 器 的 工作 负担 。 


10.3 平台 组 成 


在 前 端 识别 模式 中 ， 视 频 图 像 识别 工 作 由 前 端 设备 完成 ， 如 带 识别 功能 的 摄像 机 。 
在 中 心 识别 模式 中 ， 视 频 图 像 识别 工作 在 管理 中 心 完 成 ， 平 台 结 构 如 图 10.2 所 示 。 

常用 的 是 综合 识别 模式 , 系统 同时 带 有 前 端 识别 和 中 心 识别 模式 , 在 遇 到 前 端 繁忙 、 
计算 能 力 弱 等 情况 时 ， 在 视频 图 像 传输 到 中 心 后 ， 青 进行 二 次 识别 。 
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二 
和 

设备 端 a | 一 一 视频 流 

人 » 

前 端 设备 一 = > 信息 流 


图 10.2 中 心 识别 模式 的 平台 结构 


如 图 10.3 所 示 ， 平 台 软件 提供 核心 业务 管理 、 媒 体 转发 、 音 视频 存储 、 设 备 管理 、 
数据 库 管理 、 图 像 管 理 、Web 等 服务 。 
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其 他 服务 器 组 


数据 库 中 心 管理 服务 器 


图 10.3 平台 服务 组 成 框图 

1. 核心 业务 管理 服务 (CMS) 

CMS (Centre Manage Server) 负责 业务 监控 、 权 限 控制 、 系 统 容错 、 负 载 均 衡 、 动 
态 集 群 等 工作 。 针 对 不 同 的 业务 逻辑 的 需要 ，CMS 给 DMS (Device Manage Server)、 
MTS (Media Transmit Server)、 存 储 服务 器 等 发 送 不 同 的 命令 ， 执 行 相应 的 处 理 。 

2. 媒体 转发 服务 ‘MTS) 

MTS 的 任务 是 从 前 端 设备 处 获取 音 视频 数据 ， 并 按照 标准 流 媒体 协议 ， 将 数据 转 
发 给 存储 服务 器 和 客户 端 ， 支 持 一 对 一 、 一 对 多 和 多 对 多 三 种 转发 模式 ， 支 持 视 频 流 相 
关 的 统计 信息 。 

3. 音 视频 存储 服务 (MSS) 

MSS (Media Store Server) 采用 虚拟 存储 管理 技术 ， 支 持 DAS、NAS、IP-SAN 等 
存储 设备 ， 支持 标准 的 NFES、SAMBA、ISCSI 等 文件 协议 ; 支持 PB 级 海量 音 视 频数 据 
存储 、 快 速 检 索 。 

4. 设备 管理 服务 (DMS) 

DMS 负责 设备 的 管理 工作 ， 向 设备 发 送 命令 (如 查询 、 配 置 、 操 作 )、 收 集 设 备 的 
网 管 信息 和 报警 信息 、 实 施 报警 联动 策略 。 

5. 图 像 管 理 服务 (PMS) 

PTS (Picture Manage Server) 负责 将 图 像 保 存在 数据 库 服务 器 上 ， 供 客户 端 实时 监 
控 和 查询 。 它 支持 标准 的 SAMBA、NFS、ISCSI 等 文件 协议 , 支持 NAS、DAS、FC-SAN、 
IP-SAN 存储 方案 。 
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6. Web 服务 (WBS) 
WBS (Web Server) 以 Web 形式 向 客户 提供 Web 访问 功能 ， 方 便 与 其 他 子 系统 接 


口 。 采 用 B/S 架构 ， 通 过 IE 进行 访问 ，Web 端 集成 客户 端的 基本 功能 及 部 分 管理 端 功 
E， 实 现实 播 、 回 放 、 配 置 等 结果 。 
7. 解码 上 墙 服务 (VMS) 
VMS (Video Manage Server) 实现 视频 解码 、 显 示 ， 可 连接 至 DLP、LED 增 等 。 
8. 车 牌 识别 服务 (LPI) 


车 牌 识别 服务 (License Plate Identification) 将 抓拍 图 像 及 识别 信息 传 给 图 像 管理 服 
务 器 ,如 果 遇 到 未 识别 图 像 ， 则 传输 给 车 牌 识 别 服务 器 , 并 将 识别 信息 记录 在 数据 库 中 。 


10.4 平台 服务 器 


如 图 10.4 所 示 ， 平 台 服务 器 及 存储 设备 连接 示意 图 如 下 。 


视频 存储 攻 | --------” [3 ------- 


向 四 四 


ot 设备 管理 WEB ”中 心 管理 。 数据库 ie 
服务 器 服务 器 。 ”服务 器 。 ”服务 器 服务 器 


图 10.4 平台 服务 器 及 存储 设备 


以 某 地 级 市 为 例 ， 要 求 监控 视频 数据 都 保存 在 监控 中 心 ， 保 存 时 间 为 30 天 ， 视 频 
数据 都 从 监控 中 心 调用 ， 方 便 资 源 共 享 
每 台 标清 摄像 机 (D1) 的 码 流 在 0.2MB 左右 ， 按 照 0.2MB 码 流 计 算 每 路 存储 所 需 
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空间 如 下 。 


口 每 路 每 天 的 数据 量 为 0.2x60x60x24 = 16.9GB 
口 存储 30 天 的 存储 容量 为 16.9x30 = 507GB 


台 高 清 摄 像 机 (1080P/720P) 的 码 流 在 1MB 左右 ， 按 照 1MB 码 流 计算 每 路 存储 
所 需 空间 如 下 。 


口 每 路 每 天 的 数据 量 为 1x60x60x24 = 84.4GB 
口 存储 30 天 的 存储 容量 为 84.4x30 = 2.53TB 


若 该 地 级 市 共有 10,000 台 标 清 摄 像 机 和 10,000 台 高 清 摄 像 机 ， 则 存储 30 天 的 存储 
容量 为 30,370TB, 约 30PB。 考 虑 到 监控 中 心 对 于 存储 数据 的 大 流量 、 高 反应 速度 要 求 ， 
存储 系统 可 使 用 IP-SAN 架构 的 高 性 能 存储 设备 。 


10.5 平台 功能 


10.5.1 视频 监控 与 回放 


1. 视频 实时 监控 

如 图 10.5 所 示 ， 前 端 主机 直 联 、 服 务 器 转发 的 视频 数据 ， 均 可 在 客户 端 实 时 播放 ; 
支持 视频 双 码 流传 输 ; 可 按照 指定 设备 、 指 定 通道 远程 监听 任意 某 路 音频 信号 ， 同 时 记 
录 多 个 监听 通道 的 音频 信号 。 

支持 视频 实时 浏览 和 切换 控制 ， 支 持 多 画面 组 合 模式 (如 单 画 面 、 九 画面 、 三 十 二 
画面 监控 ,支持 图 像 抓 拍 和 视频 录像 。 可 按照 指定 场所 、 通 道 进行 单 路 图 像 、 报 警 联 
动 图 像 的 实时 点 播 及 轮 循 切换 显示 。 

设备 树 分 级 显示 所 有 设备 , 采用 不 同 图 标 显示 设备 的 不 同 状态 , 实时 刷新 设备 状态 ， 
快速 发 现 设备 故障 。 

具有 视频 切换 功能 ， 可 在 指定 的 显示 器 上 实时 显示 指定 摄像 机 的 监控 视频 。 

具有 云 台 镜 头 控制 功能 ， 控 制 云 台 转动 、 镜 头 光圈 和 变 倍 聚 焦 、 预 置 点 操作 。 

可 对 可 疑 目标 进行 三 维 智 能 定位 ， 将 其 定位 在 屏幕 中 心 ， 并 对 目标 区 域 进行 适当 缩 
放 ， 快 速 锁定 可 疑 目 标 ， 及 时 发 现 可 疑 现场 并 保存 视频 证 据 。 

可 对 视频 图 像 进行 放大 、 缩 小 操作 ， 调 整 图 像 亮 度 、 对 比 度 和 色 度 等 属性 ， 将 视频 
显示 效果 调整 到 最 佳 状态 。 


图 10.5 平台 的 视频 实时 监控 


2. 视频 录像 回放 

如 图 10.6 所 示 ， 视 频 录 像 的 快速 检索 、 流 畅 播 放 是 平台 的 重要 功能 ， 便 于 事 发 后 有 
据 可 查 。 

可 回放 设备 存储 录像 ， 或 者 平台 存储 录像 ， 可 以 支持 多 路 不 同 的 录像 同时 回放 。 

支持 录像 下 载 到 客户 端 ， 可 按照 时 间或 者 文件 下 载 。 按 照 时 间 下 载 时 ， 可 以 精确 到 
秒 ， 按照 文件 下 载 时 ， 可 以 采用 打包 方式 ， 便 于 批量 下 载 。 

采用 不 同 颜色 标注 不 同类 型 的 录像 ， 突 出 重点 视频 。 支 持 移动 侦 测 、 外 部 报警 、 视 
频 遮 挡 、 视 频 丢 失 等 自动 检测 功能 。 

可 按 百 分 比 或 时 间 显 示 录 像 进 度 条 ， 可 跨 文 件 连续 播放 ， 支 持 停止 、 暂 停 /播放 、 逐 
帧 播放 、 快 放 / 慢 放 等 功能 ， 支 持 音量 大 小 调节 。 
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图 10.6 平台 的 视频 录像 回放 
10.5.2 ”视图 无 颖 融合 功能 


人 台 在 统一 的 界面 上 实现 了 对 视频 和 图 像 两 类 监控 设备 的 管理 操作 (如 添加 、 删除、 
编辑 )， 如 DVR 等 视频 类 监控 设备 和 智能 卡 口 等 图 像 类 监控 设备 ， 可 在 同一 管理 终端 ， 
同时 查看 两 类 设备 的 运行 状态 ; 依据 系统 设置 的 关联 关系 ， 可 通过 图 像 搜索 对 应 的 视频 
录像 ， 在 提示 现场 异常 情况 后 ， 可 控制 云 台 转 动 ， 多 角度 查看 现场 状态 。 

平台 提供 图 中 画 和 图 表 播放 模式 ， 可 根据 地 图 查找 通道 ， 直 接 观 看 地 图 中 的 通道 视 
频 并 进行 通道 操作 。 通 过 直观 的 图 表 式 地 图 播放 ， 快 速 切 换 到 监控 点 ， 支 持 打开 多 个 视 
频 窗口 。 在 电子 地 图 中 支持 矢量 地 图 ， 形 象 地 标识 出 摄像 机 的 地 理 位 置 ， 无须 对 地 图 进 
行 切换 ， 只 要 通过 地 图 缩放 ， 就 可 以 寻找 到 所 有 的 摄像 机 位 置 。 

如 图 10.7 所 示 ， 平台 提供 分 层 电子 地 图 。 在 产生 报警 或 故障 时 ,可 通过 电子 地 图 准 
确 显示 事 发 位 置 。 支 持 多 级 树 状 结构 ， 具 有 图 层 跳 转 功能 。 支 持 矢 量 地 图 ,可 自由 缩放 。 
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图 10.7 se 
10.5.3 ”大 规模 人 脸 等 目标 监测 


布 撤 控 是 海量 视频 管控 平台 的 重要 功能 ， 可 对 重要 目标 〈 如 某 人 或 车 ) 设置 重点 关 
注 ， 当 监控 视频 中 出 现 此 人 或 车 时 ， 系 统 智能 检测 和 发 布 警 情 ， 并 在 数据 库 中 记录 报警 
信息 ， 支 持 分 类 查询 。 

可 根据 时 间 、 地 点 、 车 牌 等 信息 ， 对 目标 车 辆 进行 全 方位 布控 ;对 车 牌号 码 记录 不 
全 的 车 辆 ， 支 持 通配符 模糊 布控 ， 多 条件 检索 布控 状态 ， 可 以 根据 布控 属性 查找 已 经 布 


控 的 记录 。 
布控 分 等 级 ， 优 先 级 别 高 的 布控 项 目 优先 提示 。 在 系统 繁忙 时 ， 能 够 保证 重点 关注 
和 重要 信息 。 


支持 手动 和 自动 撤 控 ， 支 持 布控 信息 的 批量 导入 /导出 。 

支持 视频 预案 功能 ， 依 据 具 体 需 求 设计 监控 预案 ， 可 直接 控制 到 各 监控 点 的 监控 时 
间 和 预 置 位 ， 为 其 提供 更 为 直观 的 功能 显示 和 屏幕 操作 。 

支持 报警 预案 配置 功能 ， 提 供 多 种 报警 联动 策略 〈 如 声音 、 指 示 灯 、 视 频 切 换 、 视 
频 放 大 、 视 频 上 墙 、 云 台 预 轩 点 、 视 频 预案 等 )， 可 对 不 同 报警 设置 预 规划 响应 〈 如 时 
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间 、 场 景 等 )， 支 持 可 疑 情 况 防范 功能 
10.5.4 异常 行为 检测 


异常 行为 主要 包括 暴力 行为 和 可 疑 行为 , 异常 行为 检测 涉及 计算 机 视觉 、 图像 处 理 、 
模式 识别 和 人 工 智能 等 多 个 学 科 , 它 采用 视觉 机 器 学 习 方 法 , 分 析 监 控 场景 的 视频 数据 ， 
提取 异常 行为 的 显著 性 和 稳健 性 特征 ， 判 别 场景 中 是 否 存 在 异常 活动 。 

异常 行为 检测 包括 用 户 交互 模块 、 视 频 转 换 模块 、 行 为 检测 模块 、 数 据 存储 与 显示 
模块 等 ， 其 核心 是 行为 检测 模块 。 


10.5.5 海量 视频 摘要 


如 图 10.8 所 示 ， 针 对 卡 口 、 电 子 警 察 等 设备 传输 到 平台 的 视频 图 像 ， 通 过 视频 分 析 
与 计算 方法 ， 浓 缩 产 生 视频 图 像 的 属性 和 语义 信息 。 

视频 图 像 的 有 效 信息 可 同步 显示 在 监控 窗口 下 方 ， 如 时 间 、 地 点 、 车 牌号 码 、 归 属 
地 等 。 

视频 摘要 信息 可 直接 关联 录像 , 呈现 事件 发 生 的 前 因 后 果 , 可 单独 放大 以 查看 细节 。 


图 10.8 视频 摘要 图 像 
10;5:6 高 清 卡 口 车 辆 信息 搜索 


高 清 卡 口 车 辆 信息 搜索 主要 包括 车 流量 查询 和 违法 事件 搜索 。 
:去 


平台 对 卡 口 车 流量 进行 自动 统计 ， 可 设置 搜索 条 件 或 查询 要 求 。 
图 10.9 显示 了 平台 自动 绘制 的 柱状 图 , 可 直观 显示 统计 结果 ; 可 对 不 同 车 型 进行 分 
类 统计 ;可 按照 日 / 周 /月 /年 统计 ， 生 成 报表 。 
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图 10.9 车 流量 统计 


2. 违法 事件 搜索 


如 图 10.10 所 示 ， 可 按 违 章 事 件 存放 车 辆 图 像 以 及 相关 视频 ， 实 现 录 像 信息 按 事件 


分 类 ， 通 过 违章 事件 搜索 所 有 违章 图 像 ， 关 联播 放 相关 视频 。 


捕获 时 间 :2012/07/22 09:49:10 240 荐 获 时 间 :2012/07/22 09:49:11 040 
ZHANGYE RD. Wy ) ZHANGYE 了 


摘 获 时 间 :2012/07/22 09:49: 12 040 捕获 时 间 :2012/07/22 09:49:12 040 
ZHANGYE RD > 


图 10.10 ”违法 事件 搜索 


246 视觉 大 数据 基础 与 应 用 


支持 远程 DVR、 点 播 服务 器 中 视频 文件 的 搜索 ， 可 按照 视频 通道 、 录 像 类 型 、 存 
放 位 置 、 车 牌 、 车 标 、 车 型 、 关 键 字 、 时 间 等 条 件 进 行 搜索 ， 监 控 中 心 能 按 地 域 、 图 像 
通道 、 日 期 和 时 间 对 前 端 设备 进行 视频 文件 搜索 。 
10.6 平台 应 用 


如 图 10.11 所 示 ， 海 量 视频 管控 平台 的 主要 应 用 如 下 。 


| 


P| A 
博物 馆 、 公 园 、 广 场 、 医 院 等 


住宅 小 区 、 公 寓 、 商 场 、 超 市 等 


sae > 


公路 、 石 油 、 铁 路 、 变 电站 、 地 铁 等 


= 


是 
电力 、 工 厂 、 仓 库 、 造 船厂 、 冶 金 厂 等 酒吧 、 注 冰 场 、 和 餐饮 、 旅 游 等 


学 校 、 教 育 培训 中 心 、 会 议 中 心 等 


图 10.11 海量 视频 管控 平台 的 应 用 
可 见 ， 海 量 视频 监控 平台 目前 已 广泛 应 用 于 公共 设施 、 金 融 设 施 、 军 警 设施 、 娱 乐 
设施 、 教 育 设施 、 制 作 设施 、 基 础 设置 和 居民 商业 领域 。 随 着 技术 的 革新 和 完善 ， 其 应 
用 领域 还 将 进一步 拓展 。 


